Sarsa算法
TD control : 类似于MC算法
同样属于model-free control 的方法
具体两种分类
On-policy learning:Sarsa
Off-policy learning:Q-learning
Sarsa算法:
先进行TD评估再进行TD预测
类似MC算法,评估时更新Q值Q-table 估计固定策略下的具体状态的Q值,使用下面的更新表达式
采用e-greedy策略进行预测
更新Q(S,A),选取最优策略,
e一开始=1
注意和MC的图解的差别,只需要一部分的状态对,
Sarsa(0)算法 TD(1) 迭代 更新S0 A0时候 只要R1 S1 A1只需要这段episode;每次状态只截取当前状态对和下一状态对,充分利用马尔克夫性
算法
初始化
选取A
repeat
选取动作 observe R,S'
Choose A'
Q(S,A)<-Q+α(R+γQ(S',A')-Q(S,A))
S<-S';A<-A'
until S is terminal
N-step Sarsa
td target换成Qn
Sarsa(λ) qt来源于采样,需要估计,所以是不准的,加上λn次方
eligibility traces
E0=0
Et=γλEt-1+l(St=s,At=a)
达到收敛或者达到某一终态