绝对贪婪策略的不足:
reward改变的情况下,过去积累的reward印象策略,给策略选择一个微小的随机性,
Epsilon Greedy Policy 给策略选择一个微小的随机性,使agent 更可能选择时使Q最大
Control
目的获得最优策略
On-policy learning:策略评估和改善是同步进行的,求得目标最优Q值,然后选取某一个策略,蒙特卡洛基于两步走。一套episode 系统同时探索和策略改进
Off-policy learning 两套系统 策略评估和改善不直接用于产生agent的policy 一个探索学习并成为optimal policy 另一个用来逼近上述策略。
On-policy learning 通过探索和利用Exploitation 交替迭代完成
先策略评估 e-greedy(Q)更新策略,e如何选取?
e如何选取?在agent与环境刚开始交互时,agent对环境知之甚少,这时需要大量探索;为了尽可能更多了解环境,agent动作选取需要多样化(随机选取)。2 后面的迭代 agent对环境了解足够多,后面需要选择greedy policy
e选取只要满足条件 状态度量空间是无线的 策略收敛到argmaxQk agent就是一定达到最优策略。e=1/i
算法步骤
1)初始化变量
2)通过Epsilon-greedy获得起始策略
3)进行策略评估
4)进行策略迭代
5)不断重复上述步骤直到达到收敛
Incremental Mean 增量均值
采样之后 相加求均值,写成计算机语言 需要遍历每一个episode,每一次的变化迭代,μk=μk-1 + 1/k (xk-μk-1)
满足GLIE Monte-Carlo Control算法 每次生成新的策略再不断迭代直到生成收敛的结果。
2个policy 一个是target policy 一个是behavior policy 前者学习成为optimal policy 后者用于探索Exploration。
因此学习过程变化为behavior policy 不断更新参数,target policy 去逼近前者分布