首页 AI学术青年与开发者社区

强化学习解法

1)MDP模型求解,动态规划

2)蒙特卡罗学习 采样 根据Q值学习

3)持续差分算法TD算法

内容:

1)时序差分学习(Temporal-Difference Learning)

2)Sarsa算法

3)总结

学过的RL解法

DP:model-based 学习方式 需要知道状态转移矩阵;直接计算所有状态动作pair 的Q值或者V值表,然后通过贪心策略获得agent 的策略

Monte-Carlo:model-free学习方式 不需要知道MDP和环境信息;基于episode 进行学习,agent 先通过既定的policy 与环境进行交互;每次根据episode 的return 更新Q表,知道最后收敛

TD learning:

直接从经验上学习,和MC类似

model-free no MDP transitions

针对incomplete episodes by bootstrapping

update a guess towards a guess

目标学习到一个最优策略

蒙特卡洛需要一整个return Gt

TD 中 Gt变为持续差分目标 Rt+1 + γV(St+1)

 

TD学习和MC 比较:不需要等采样完全结束再计算return TD target=当前时刻瞬时reward,上一时刻动作状态对的Q,在增量均值处进行增量截取,

方差比较:Gt是 Vπ(St)无偏估计

return有很多随机性,方差越大,MC和TD优缺点 MC是无偏估计 高方差 非常好收敛 近似少 迭代快 简单理解

TD 方差稳定 收敛整体,对初始选值敏感,

λlearning 每多一步 增加一步的reward

TD模型是蒙特卡洛模型的近似和简化

TD(λ) λ=n 就把 TD target换成n步return的表达式

[展开全文]

授课教师

暂无教师
微信扫码分享课程