强化学习解法
1)MDP模型求解,动态规划
2)蒙特卡罗学习 采样 根据Q值学习
3)持续差分算法TD算法
内容:
1)时序差分学习(Temporal-Difference Learning)
2)Sarsa算法
3)总结
学过的RL解法
DP:model-based 学习方式 需要知道状态转移矩阵;直接计算所有状态动作pair 的Q值或者V值表,然后通过贪心策略获得agent 的策略
Monte-Carlo:model-free学习方式 不需要知道MDP和环境信息;基于episode 进行学习,agent 先通过既定的policy 与环境进行交互;每次根据episode 的return 更新Q表,知道最后收敛
TD learning:
直接从经验上学习,和MC类似
model-free no MDP transitions
针对incomplete episodes by bootstrapping
update a guess towards a guess
目标学习到一个最优策略
蒙特卡洛需要一整个return Gt
TD 中 Gt变为持续差分目标 Rt+1 + γV(St+1)
TD学习和MC 比较:不需要等采样完全结束再计算return TD target=当前时刻瞬时reward,上一时刻动作状态对的Q,在增量均值处进行增量截取,
方差比较:Gt是 Vπ(St)无偏估计
return有很多随机性,方差越大,MC和TD优缺点 MC是无偏估计 高方差 非常好收敛 近似少 迭代快 简单理解
TD 方差稳定 收敛整体,对初始选值敏感,
λlearning 每多一步 增加一步的reward
TD模型是蒙特卡洛模型的近似和简化
TD(λ) λ=n 就把 TD target换成n步return的表达式