1.强化学习其运行过程 :S0———》A0——》S1、R1——》A1..........
2.强化学习过程可以近似看作一个有监督学习的过程。
3.强化学习的过程不能将其看作为优化每一步的最大奖励值。
4.一般,在t时刻,agent的目标时执行动作At并且是Gt最大化。
5.影响因子y=1时代表当前动作对后续影响的效果是一样的,y=0时代表贪心算法,只对当前动作进行评分。
6.在允许策略集合中找出使问题具有优化效果的策略,称为最优策略。
7.可以将一个MDP模型恢复为MP和MRP。
8.策略具有随机性,状态转移同样具有随机性。
9.Rt+1可以认为为进入St+1后立刻得到了Rt+1.
10.正是由于Pss'a的存在,才使得R是一个期望值。
11.强化学习往往具有延迟回报的特点,如果第n步输掉了棋,那么只有状态sn和动作an获得了即时奖励,前面的所有状态立即奖励均为0。
12,之前的任意状态s和动作a,即时奖励函数无法说明策略的好坏。
13.对于当前动作的影响,需要定义值函数来表明当前状态下策略的长期影响。