深度理解强化学习_学习笔记-AI研习社

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

会员免费

现价：￥399.00

原价：￥499.00

reinforce 算法介绍

一般的策略梯度学习将状态作为输入，神经网络使状态，输出是策略概率，最后有一个目标，Jθ，目标期望reward，直到使最大化。

四个结点，每个结点一个概率；假如获得两个概率，总的reward是通过每一步reward计算，将每个pair拆开，采取向左的动作，输出选取概率最高动作，朝上走对一整个episode，然后另一部分loss 每一个动作pair 掉低一些，改变策略网络的参数，win 增加概率，lost 减少概率

如何训练？类比监督学习，输入狗的图片，输出两个概率，每一对数据对应label，01 或者10，输出softmax，softmax输出概率，通过最小化网络误差来更新，对于强化学习，怎么造label

强化学习弱监督学习，有reward，通过reward进行策略评估，通过J Θ评估，若当前比上次增大则这动作是好的。

衡量尺度是J θ的平均reward，Policy gradient 对于实际情况，agent每执行一个动作就有一个对应的reward，因此目标仍然是最大化期望的reward。将reward 抽出来就获得动作状态对，得到R的加权期望，return from an arbitrary trajectory ,因为不止一个episode，只去计算所有。

DQN梯度下降求最小值，构造ground truth，使得当前Q值不断逼近，误差越来越小；

这里需要Jθ最大化，梯度上升。

最后更新不只用一个episode更新，使用多条episode进行更新，对Uθ求梯度，只对概率求梯度，先使用初始化策略，收集episode，估计梯度，梯度上升运算，use trajectories to estimate,所有瞬时reward 相加，朝着增加的方向。

动作空间是离散的情况，最后一层softmax

若动作空间是连续的运用gaussian policy倒数第二层设置为均值，最后一层输出πs，a连续值

深度理解强化学习

授课教师

最新学员

学员动态