深度理解强化学习_学习笔记-AI研习社

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

会员免费

现价：￥399.00

原价：￥499.00

绝对贪婪策略的不足:

reward改变的情况下，过去积累的reward印象策略，给策略选择一个微小的随机性，

Epsilon Greedy Policy 给策略选择一个微小的随机性，使agent 更可能选择时使Q最大

Control

目的获得最优策略

On-policy learning:策略评估和改善是同步进行的，求得目标最优Q值，然后选取某一个策略，蒙特卡洛基于两步走。一套episode 系统同时探索和策略改进

Off-policy learning 两套系统策略评估和改善不直接用于产生agent的policy 一个探索学习并成为optimal policy 另一个用来逼近上述策略。

On-policy learning 通过探索和利用Exploitation 交替迭代完成

先策略评估 e-greedy(Q)更新策略，e如何选取？

e如何选取？在agent与环境刚开始交互时，agent对环境知之甚少，这时需要大量探索；为了尽可能更多了解环境，agent动作选取需要多样化（随机选取）。2 后面的迭代 agent对环境了解足够多，后面需要选择greedy policy

e选取只要满足条件状态度量空间是无线的策略收敛到argmaxQk agent就是一定达到最优策略。e=1/i

算法步骤

1）初始化变量

2）通过Epsilon-greedy获得起始策略

3）进行策略评估

4）进行策略迭代

5）不断重复上述步骤直到达到收敛

Incremental Mean 增量均值

采样之后相加求均值，写成计算机语言需要遍历每一个episode，每一次的变化迭代，μk=μk-1 + 1/k (xk-μk-1)

满足GLIE Monte-Carlo Control算法每次生成新的策略再不断迭代直到生成收敛的结果。

2个policy 一个是target policy 一个是behavior policy 前者学习成为optimal policy 后者用于探索Exploration。

因此学习过程变化为behavior policy 不断更新参数，target policy 去逼近前者分布

深度理解强化学习