深度理解强化学习_学习笔记-AI研习社

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

会员免费

现价：￥399.00

原价：￥499.00

强化学习解法

1）MDP模型求解，动态规划

2）蒙特卡罗学习采样根据Q值学习

3）持续差分算法TD算法

内容：

1）时序差分学习（Temporal-Difference Learning）

2）Sarsa算法

3）总结

学过的RL解法

DP：model-based 学习方式需要知道状态转移矩阵；直接计算所有状态动作pair 的Q值或者V值表，然后通过贪心策略获得agent 的策略

Monte-Carlo：model-free学习方式不需要知道MDP和环境信息；基于episode 进行学习，agent 先通过既定的policy 与环境进行交互；每次根据episode 的return 更新Q表，知道最后收敛

TD learning:

直接从经验上学习，和MC类似

model-free no MDP transitions

针对incomplete episodes by bootstrapping

update a guess towards a guess

目标学习到一个最优策略

蒙特卡洛需要一整个return Gt

TD 中 Gt变为持续差分目标 Rt+1 + γV(St+1)

TD学习和MC 比较：不需要等采样完全结束再计算return TD target=当前时刻瞬时reward，上一时刻动作状态对的Q，在增量均值处进行增量截取，

方差比较：Gt是 Vπ(St)无偏估计

return有很多随机性，方差越大，MC和TD优缺点 MC是无偏估计高方差非常好收敛近似少迭代快简单理解

TD 方差稳定收敛整体，对初始选值敏感，

λlearning 每多一步增加一步的reward

TD模型是蒙特卡洛模型的近似和简化

TD(λ) λ=n 就把 TD target换成n步return的表达式

深度理解强化学习