首页意见反馈 AI学术青年与开发者社区

登录

...

深度理解强化学习

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

机器学习基础入门

会员免费

现价：￥399.00

原价：￥499.00

课程详情可以咨询慕慕

开通会员，立省399元立即开通

券当前课程，会员领券立减30元>>

课程未发布

该课程已关闭

课程介绍

【课程概述】

本课程将由浅入深，系统化讲解强化学习。除了基础的算法分解、数学原理，还有算法实战和代码讲解，帮助大家很好的理解强化学习。本课程为小组课程，供小组成员免费学习。

【讲师介绍】

王湛，上海交通大学CS硕士

研究方向为强化学习、计算机视觉等方向，在ACM MM Asia等国际会议上发表过相关论文。并对强化学习与计算机视觉的结合有很深的理解。

【课程目录】

第一课简介

1.1 强化学习初步介绍

1.2 强化学习基本要素和概念

1.3 课程要求

第二课马尔科夫决策过程(MDP)

2.1 强化学习模型构建

2.2 马尔科夫奖赏过程

2.3 马尔科夫决策过程

第三课 RL环境介绍与搭建

3.1 Python环境

3.2 强化学习环境

3.3 深度学习环境搭建

第四课强化学习解法1

4.1 动态规划(DP)-值函数

4.2 动态规划(DP)-动作值函数

4.3 动态规划(DP)-总结

第五课强化学习解法2

5.1 蒙特卡洛学习(Monte-Carlo Prediction)

5.2 蒙特卡洛学习(Monte-Carlo Control)

5.3 蒙特卡洛学习(Coding exercise)

第六课强化学习解法3

6.1 时序差分学习(Temporal-Difference Learning)

6.2 Sarsa算法

6.3 总结

第七课强化学习解法4

7.1 时序差分学习之(Q-learning)

7.2 Q-learning(Coding exercise)

7.3 总结

第八课深度Q网络

8.1 值函数的近似

8.2 Deep Q network

8.3 Coding exercise

第九课策略梯度(Policy Gradient)

9.1 策略梯度思想

9.2 Reinforce算法

9.3 Coding exercise

第十课 Actor Critic

10.1 Actor Critic介绍

10.2 Deep Deterministic Policy Gradient (DDPG)

10.3 Asynchronous Advantage Actor-Critic (A3C)

10.4 RL新型算法的自我学习与提升

【课时解锁卡获得方式】

1.成功邀请一位好友加入小组，获得一张解锁卡

2.联系发泡泡两天获得一张解锁卡

3.分享自己的学习笔记，管理员审核通过后获得一张解锁卡

4.泡泡、笔记、帖子加精可获得两张解锁卡

授课教师

暂无教师

微信扫码分享课程

最新学员

学员动态

小白U1678879314 加入课程深度理解强化学习

小白U1694479422 开始学习课时 Coding exercise

小白U1694479422 开始学习课时环境搭建实操

小白U1694479422 开始学习课时马尔科夫奖赏过程

小白U1694479422 开始学习课时 Deep Q network