1.马尔科夫奖赏过程的表示量有:
a)S状态集
b)P状态转移概率矩阵
c)R奖赏函数
d)y折扣系数
2.下一时刻的状态至于上一时刻的状态有关
3.终止状态只进不出
4.瞬时奖励是评价当前动作的好坏,值函数是评价当前状态的好坏
5.贝尔曼方程建立在状态矩阵已知的条件下求解值函数大小。
6.状态值函数是指agent在状态st根据策略π采取后续动作所得到的累积回报的期望。
7.状态行为函数是指agent从状态s出发,按照策略π采取行动得到的累积回报的期望
8.某个状态的值函数等于该状态下所有状态行为值函数的加权和。
9.状态行为函数等于该状态、该行为执行后的即时奖励的期望,加上他所导致的所有下一步状态的折减后状态值函数的加权和。
10.贝尔曼方程其实是自身以及相互之间的递推关系。