首页意见反馈 AI学术青年与开发者社区

登录

...

深度理解强化学习

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

机器学习基础入门

会员免费

现价：￥399.00

原价：￥499.00

课程详情可以咨询慕慕

开通会员，立省399元立即开通

券当前课程，会员领券立减30元>>

我要报名课程咨询

排序：点赞最多
- 最新笔记
- 点赞最多

第 2 章马尔科夫过程

课时6 马尔科夫决策过程

MDP模型的构建过程：要学会将一个问题转化成MDP问题，并用数学形式表示出来。

1、马尔科夫决策过程

定义：<S, P, A, R, r>

S是状态集

A是动作集

P是状态转移概率矩阵：

R是奖赏集合

r是折扣系数， r in [0, 1]

在这个模型中加入了动作，因此P的结构也发生了变化。

Note：以上，红色的是agent知道的信息，蓝色的是agent不知道的。要学习的正是 P；而奖赏 R 是环境反馈的。

2、案例：捡垃圾的机器人

状态 S ={ high, low}（高电量，低电量）

动作 A = {search, wait, charge}

卡莫•莱昂 · 2019-05-06 · 马尔科夫决策过程 1

授课教师

暂无教师

微信扫码分享课程

最新学员

学员动态

小白U1678879314 加入课程深度理解强化学习

小白U1694479422 开始学习课时 Coding exercise

小白U1694479422 开始学习课时环境搭建实操

小白U1694479422 开始学习课时马尔科夫奖赏过程

小白U1694479422 开始学习课时 Deep Q network