首页 AI学术青年与开发者社区

1.策略为状态到动作的映射。

2.策略为状态到动作的映射过程中,动作具有不确定性。

3.动态规划的概念为:动态为序列或者时序问题,规划为最优规划。

4.动态规划它是一种算法,用来解答固定问题,满足以下条件:

a)有最优子结构(最优解能分解为好多子问题的解)

b)拥有重叠的子问题(子问题能重复多次且有解)

5.值迭代是针对一个MDP问题对每一个时刻所在的状态进行值函数的估计,直到达到最优值的过程。

6.任何状态的值函数等于即时奖励加下一状态的值函数大小*折扣因子。

7.在当前策略下,一般的任何一个状态的状态值都等于下一时刻的瞬时奖励值与未来折扣之后的状态值的期望值。

8.π》=π’当且仅当某策略的值函数大于该策略的值函数。

9.一个最优策略一定存在 ,但不唯一。

 

[展开全文]

授课教师

暂无教师
微信扫码分享课程