首页意见反馈 AI学术青年与开发者社区

登录

...

深度理解强化学习

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

机器学习基础入门

会员免费

现价：￥399.00

原价：￥499.00

课程详情可以咨询慕慕

开通会员，立省399元立即开通

券当前课程，会员领券立减30元>>

我要报名课程咨询

排序：点赞最多
- 最新笔记
- 点赞最多

1.策略为状态到动作的映射。

2.策略为状态到动作的映射过程中，动作具有不确定性。

3.动态规划的概念为：动态为序列或者时序问题，规划为最优规划。

4.动态规划它是一种算法，用来解答固定问题，满足以下条件：

a）有最优子结构（最优解能分解为好多子问题的解）

b）拥有重叠的子问题（子问题能重复多次且有解）

5.值迭代是针对一个MDP问题对每一个时刻所在的状态进行值函数的估计，直到达到最优值的过程。

6.任何状态的值函数等于即时奖励加下一状态的值函数大小*折扣因子。

7.在当前策略下，一般的任何一个状态的状态值都等于下一时刻的瞬时奖励值与未来折扣之后的状态值的期望值。

8.π》=π’当且仅当某策略的值函数大于该策略的值函数。

9.一个最优策略一定存在，但不唯一。

妮娜•伏恩 · 2019-08-06 · 动态规划（DP）-值函数 0

授课教师

暂无教师

微信扫码分享课程

最新学员

学员动态

小白U1678879314 加入课程深度理解强化学习

小白U1694479422 开始学习课时 Coding exercise

小白U1694479422 开始学习课时环境搭建实操

小白U1694479422 开始学习课时马尔科夫奖赏过程

小白U1694479422 开始学习课时 Deep Q network