基于序列决策过程基础上
马尔克夫决策过程
1.强化学习模型构建
具体优化什么变量?
state 参数更新时和环境交互
环境给Agent一个观察,智能体给一个动作,环境给一个reward 再下一个观察...
数学化
environment将state s0传递给agent,然后action A0,reward R1
即S0 A0 R1 S1 A1...对这些序列 即Episode 学习
每一次的过程称为Episode
Si Ai相当于数据;奖赏值相当于label
目标最大化期望累积奖赏
无法直接优化Rt!
如果只优化一步的Rt,若只考虑一步的Rt,对于总体可能不是最好的,就像贪心算法那样不一定是最好的,随机性太大。
马尔克夫决策过程 MDP
对于某种问题,建立马尔可夫决策过程,然后解该模型。最后通过改模型的参数最大化期望累计奖赏来的得到最优解。
最大化期望累积奖赏: R1+R2+...+Rt+Rt+1+...
Gt=Rt+1+Rt+2...+
只考虑未来时刻和当前时刻的奖赏
但是未来时刻的reward 对当前return影响是不一样的
γ=0就是贪心算法
γ=1就是每一时刻奖赏对当前是一样的