首页 AI学术青年与开发者社区

reinforce 算法介绍

一般的策略梯度学习 将状态作为输入,神经网络使状态,输出是策略概率,最后有一个目标,Jθ,目标期望reward,直到使最大化。

四个结点,每个结点一个概率;假如获得两个概率,总的reward是通过每一步reward计算,将每个pair拆开,采取向左的动作,输出选取概率最高动作,朝上走对一整个episode,然后另一部分loss 每一个动作pair 掉低一些,改变策略网络的参数,win 增加概率,lost 减少概率

如何训练?类比监督学习,输入狗的图片,输出两个概率,每一对数据对应label,01 或者10,输出softmax,softmax输出概率,通过最小化网络误差来更新,对于强化学习,怎么造label

强化学习 弱监督学习,有reward,通过reward进行策略评估,通过J Θ评估,若当前比上次增大则这动作是好的。

衡量尺度是J θ的平均reward,Policy gradient 对于实际情况,agent每执行一个动作就有一个对应的reward,因此目标仍然是最大化期望的reward。将reward 抽出来就获得动作状态对,得到R的加权期望,return from an arbitrary trajectory ,因为不止一个episode,只去计算所有。

DQN梯度下降 求最小值,构造ground truth,使得当前Q值不断逼近,误差越来越小;

这里需要Jθ最大化,梯度上升。

最后更新不只用一个episode更新,使用多条episode进行更新,对Uθ求梯度,只对概率求梯度,先使用初始化策略,收集episode,估计梯度,梯度上升运算,use trajectories to estimate,所有瞬时reward 相加,朝着增加的方向。

动作空间是离散的情况,最后一层softmax

若动作空间是连续的运用gaussian policy倒数第二层设置为均值,最后一层输出πs,a连续值

 

[展开全文]

授课教师

暂无教师
微信扫码分享课程