首页 AI学术青年与开发者社区

建模成马尔可夫决策过程,动态规划方法,一般或者最优策略,对状态转移概率清楚,遍历并选择策略,评价策略好坏,更新策略

现实中无法知道环境,不知道状态,不知道概率,对于这类序列决策问题

蒙特卡洛学习 Monte-Carlo Prediction

目标:Agent Environment

寻找最优策略 使得期望Q(S,W)最大化

动态规划知道所有环境,我们需要知道环境的一个近似,MC方法从episodes开始学习,model free是生活中大多数的模型,RL分为基于值函数的学习,或者基于策略的学习。

MC complete episodes no bootstrapping

MCuses simplest possible idea value= mean return

Caveat can only apply MC to episodic MDPs

terminate

蒙特卡洛学习全球十大算法排名第二,对多次环境的采样对环境进行模拟。

Monte-Carlo Prediction: 评价当前策略好坏,一般思想:对于任意给定策略π,agent 执行action,估计相应的状态值。我们需要通过执行episode 中出现状态s的数目N(s),多次reward 值得平均值来计算相应的动作值或者状态值。计算有两种方式:第一次预见蒙特卡洛策略的评价,和每次预见蒙特卡洛的评价。

First Visit

做实验 假如每次以1/4概率选取四个选择之一,得到很多状态s,first只取预见第一个s时的at, value is estimated by mean return 趋近于标准期望。

相对于动态规划是绝对贪婪策略,找到最大的return 先用策略得到Q表 然后找到最佳策略,再去更新Q table 再更新策略。

考虑策略的方法是绝对贪婪的

[展开全文]

授课教师

暂无教师
微信扫码分享课程