深度理解强化学习
强化学习解法 Q-learning
时序差分学习
on-policy : 在估计policy和值函数的时候,生成的样本所采用的policy与估计时用的一样的policy 同一策略下确定
off-policy 估计policy和值函数时候 生成样本episode所采用的policy与估计时用的是不一样的policy
on-policy 一边探索一边学习策略
off-policy 两个策略
Off-policy Q-learning
评估目标策略π 计算值函数(动作值或者策略值),μ策略
利用π策略环境交互,利用e更新计算策略
Q(A|S)不同状态下概率是不同的,使用μ去逼近π策略
好处:学到多种策略
利用μ去逼近π策略,中心极限定理 样本量足够大,任何分布都可以分布为正态分布,只有均值和方差,
假设x的随机变量 P分布,假设知道Qx,不知道Px
E[f(x)]=∫fxpxdx=∫Qx*(Px/Qx*fx)dx=Ex~Q[P(X)/Q(X)*f(X)]
离散的情况
A1服从P分布;A2服从Q分布
E[A1]=∑xiPi ;E[A2]=∑xiqi
A1在数据量不够大的时候,M[A1]=1/N[∑xiki];
已知A2 需要知道A1,N趋于无穷大的时候,ki/N=Pi Mi/N=qi,M[A1]可以用xi*p/q式子表示,
正如蒙特卡洛采样中 Gt可以用reward 的均值来表示,可以用重要性采样来代替。
Q-learning
首先考虑off-policy action-values Q(s,a)
using behavior policy At+1~μ(.|st),
consider alternative successor A'~π(.|St)
然后更新Q(St,At)朝着alternative action Q(St,At)使用绝对贪婪策略 π(St+1)=argmaxQ(St+1,a')
收敛Q(s,a)->q*(s,a)
π策略若变换,Q-learning又叫最大化Sarsa算法
Q-learning有两个策略,可以认为选择变成其它新的算法