深度理解强化学习_学习笔记-AI研习社

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

会员免费

现价：￥399.00

原价：￥499.00

Sarsa算法

TD control : 类似于MC算法

同样属于model-free control 的方法

具体两种分类

On-policy learning:Sarsa

Off-policy learning:Q-learning

Sarsa算法：

先进行TD评估再进行TD预测

类似MC算法，评估时更新Q值Q-table 估计固定策略下的具体状态的Q值，使用下面的更新表达式

采用e-greedy策略进行预测

更新Q(S,A),选取最优策略，

e一开始=1

注意和MC的图解的差别，只需要一部分的状态对，

Sarsa(0)算法 TD(1) 迭代更新S0 A0时候只要R1 S1 A1只需要这段episode；每次状态只截取当前状态对和下一状态对，充分利用马尔克夫性

算法

初始化

选取A

repeat

选取动作 observe R，S'

Choose A'

Q(S,A)<-Q+α(R+γQ(S',A')-Q(S,A))

S<-S';A<-A'

until S is terminal

N-step Sarsa

td target换成Qn

Sarsa(λ) qt来源于采样，需要估计，所以是不准的，加上λn次方

eligibility traces

E0=0

Et=γλEt-1+l(St=s,At=a)

达到收敛或者达到某一终态

深度理解强化学习