首页 AI学术青年与开发者社区

RL->DRL

深度Q网络

1、值函数的近似:对Q表近似

2、Deep Q network

为什么要把深度学习引入强化学习?

自身处于研究的角度,遇到什么问题?在Q-learning中,首先初始化一个Q表,然后通过agent与环境交互采样获得episodes,最后根据Q值迭代直到收敛,得到最优的Q表

对于4*4的矩阵 处理是简单的;但如果对于超级玛莉  显然有无数种,因为是连续的,很难列出所有结点,这样矩阵去存储,不能利用Q表等方法。遇到维度灾难,不能用迭代。

从RL到deep RL,for DRL,我们需要一个近似函数来直接近似值函数,从而加速加快Q值矩阵更新的速度,因为值函数的输入是动作状态对(tensor),输出Q表(tensor),所以最佳近似就是深度神经网络。利用神经网络加快运算量减少存储。

DRL agent 与环境交互 <s,a> Enviroment

根据Q值,让Q值不断增大,确保是最优的,值函数近似以后会有些问题,Q表当成神经网络,不能采用原来的迭代表达式直接进行更新;采用学习的方式进行更新(需要一些label);目标函数变成常见的L2范数;优化方式变成了梯度下降。

对于梯度下降,假设J(W) a differentiable function of parameter vector w

对wJ(w)求梯度,然后找到local min(J(w)),然后w沿着梯度方向更新最快。

Deep RL: 寻找最优参数,使得MSE最小化,凸函数,使用随机梯度下降的,Δw。

若假设 wx+b 是所求,特征向量由神经网络得到,若输入图像由CNN接入,再接全连接网络;对于线性函数,最优化的相关知识

 

特征运算时,值函数x table(S)=()然后得到最小值去更新参数w。

值函数真实值如何选?

用reward评判,神经网络训练,用真实值,用target替代真实值,gt return(蒙特卡洛) TD(0) Rt+1 + γ (St+1,w)

 

Deep RL

return Gt unbiased, noisy sample of true value vπ(St); apply supervised learning to training data; <S1,G1>,<S2,G2>,...,<ST,GT>

Δw=α(Gt-v(St,w))算子wv(St,w)

使用非线性网络,状态动作队和对应target组合,最后获得全局最优。

 

[展开全文]

授课教师

暂无教师
微信扫码分享课程