首页 AI学术青年与开发者社区

Sarsa算法

TD control : 类似于MC算法

同样属于model-free control 的方法

具体两种分类

On-policy learning:Sarsa

Off-policy learning:Q-learning

Sarsa算法:

先进行TD评估再进行TD预测

类似MC算法,评估时更新Q值Q-table 估计固定策略下的具体状态的Q值,使用下面的更新表达式

采用e-greedy策略进行预测

更新Q(S,A),选取最优策略,

e一开始=1

注意和MC的图解的差别,只需要一部分的状态对,

Sarsa(0)算法 TD(1) 迭代 更新S0 A0时候 只要R1 S1 A1只需要这段episode;每次状态只截取当前状态对和下一状态对,充分利用马尔克夫性

算法

初始化

选取A

repeat

选取动作 observe R,S'

Choose A'

Q(S,A)<-Q+α(R+γQ(S',A')-Q(S,A))

S<-S';A<-A'

until S is terminal

 

N-step Sarsa

td target换成Qn

 

Sarsa(λ) qt来源于采样,需要估计,所以是不准的,加上λn次方

eligibility traces

E0=0

Et=γλEt-1+l(St=s,At=a)

达到收敛或者达到某一终态

[展开全文]
PoleToWinF1 · 2019-06-29 · Sarsa算法 0

授课教师

暂无教师
微信扫码分享课程