首页 AI学术青年与开发者社区

深度理解强化学习
强化学习解法 Q-learning
时序差分学习
on-policy : 在估计policy和值函数的时候,生成的样本所采用的policy与估计时用的一样的policy 同一策略下确定

off-policy 估计policy和值函数时候 生成样本episode所采用的policy与估计时用的是不一样的policy

on-policy 一边探索一边学习策略

off-policy 两个策略

Off-policy Q-learning

评估目标策略π 计算值函数(动作值或者策略值),μ策略

利用π策略环境交互,利用e更新计算策略

Q(A|S)不同状态下概率是不同的,使用μ去逼近π策略

好处:学到多种策略

利用μ去逼近π策略,中心极限定理 样本量足够大,任何分布都可以分布为正态分布,只有均值和方差,

假设x的随机变量 P分布,假设知道Qx,不知道Px

E[f(x)]=∫fxpxdx=∫Qx*(Px/Qx*fx)dx=Ex~Q[P(X)/Q(X)*f(X)]

离散的情况

A1服从P分布;A2服从Q分布

E[A1]=∑xiPi ;E[A2]=∑xiqi

A1在数据量不够大的时候,M[A1]=1/N[∑xiki];

已知A2 需要知道A1,N趋于无穷大的时候,ki/N=Pi Mi/N=qi,M[A1]可以用xi*p/q式子表示,

正如蒙特卡洛采样中 Gt可以用reward 的均值来表示,可以用重要性采样来代替。

Q-learning

首先考虑off-policy action-values Q(s,a)

using behavior policy At+1~μ(.|st), 

consider alternative successor A'~π(.|St)

然后更新Q(St,At)朝着alternative action Q(St,At)使用绝对贪婪策略 π(St+1)=argmaxQ(St+1,a')

收敛Q(s,a)->q*(s,a)

 

π策略若变换,Q-learning又叫最大化Sarsa算法

Q-learning有两个策略,可以认为选择变成其它新的算法

 

[展开全文]

授课教师

暂无教师
微信扫码分享课程