首页 AI学术青年与开发者社区
课程介绍

【课程概述】

本课程将由浅入深,系统化讲解强化学习。除了基础的算法分解、数学原理,还有算法实战和代码讲解,帮助大家很好的理解强化学习。本课程为小组课程,供小组成员免费学习。

 

【讲师介绍】

王湛,上海交通大学CS硕士

研究方向为强化学习、计算机视觉等方向,在ACM MM Asia等国际会议上发表过相关论文。并对强化学习与计算机视觉的结合有很深的理解。

 

【课程目录】

第一课 简介
1.1 强化学习初步介绍
1.2 强化学习基本要素和概念
1.3 课程要求
 
第二课 马尔科夫决策过程(MDP)
2.1 强化学习模型构建
2.2 马尔科夫奖赏过程
2.3 马尔科夫决策过程
 
第三课 RL环境介绍与搭建
3.1 Python环境
3.2 强化学习环境
3.3 深度学习环境搭建
 
第四课 强化学习解法1
4.1 动态规划(DP)-值函数
4.2 动态规划(DP)-动作值函数
4.3 动态规划(DP)-总结
 
第五课 强化学习解法2
5.1 蒙特卡洛学习(Monte-Carlo Prediction)
5.2 蒙特卡洛学习(Monte-Carlo Control)
5.3 蒙特卡洛学习(Coding exercise)
 
第六课 强化学习解法3
6.1 时序差分学习(Temporal-Difference Learning)
6.2 Sarsa算法
6.3 总结
 
第七课 强化学习解法4
7.1 时序差分学习之(Q-learning)
7.2 Q-learning(Coding exercise)
7.3 总结
 
第八课 深度Q网络
8.1 值函数的近似
8.2 Deep Q network
8.3 Coding exercise
 
第九课 策略梯度(Policy Gradient)
9.1 策略梯度思想
9.2 Reinforce算法
9.3 Coding exercise
 
第十课 Actor Critic
10.1 Actor Critic介绍
10.2 Deep Deterministic Policy Gradient (DDPG)
10.3 Asynchronous Advantage Actor-Critic (A3C)
10.4 RL新型算法的自我学习与提升

 

【课时解锁卡获得方式】

1.成功邀请一位好友加入小组,获得一张解锁卡

2.联系发泡泡两天获得一张解锁卡

3.分享自己的学习笔记,管理员审核通过后获得一张解锁卡

4.泡泡、笔记、帖子加精可获得两张解锁卡
 

授课教师

暂无教师
微信扫码分享课程

学员动态

Hana147 开始学习课时 Coding exercise
Hana147 开始学习课时 Reinforce算法
Hana147 开始学习课时 强化学习初步介绍