深度理解强化学习_学习笔记-AI研习社

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

会员免费

现价：￥399.00

原价：￥499.00

建模成马尔可夫决策过程，动态规划方法，一般或者最优策略，对状态转移概率清楚，遍历并选择策略，评价策略好坏，更新策略

现实中无法知道环境，不知道状态，不知道概率，对于这类序列决策问题

蒙特卡洛学习 Monte-Carlo Prediction

目标：Agent Environment

寻找最优策略使得期望Q（S，W）最大化

动态规划知道所有环境，我们需要知道环境的一个近似，MC方法从episodes开始学习，model free是生活中大多数的模型，RL分为基于值函数的学习，或者基于策略的学习。

MC complete episodes no bootstrapping

MCuses simplest possible idea value= mean return

Caveat can only apply MC to episodic MDPs

terminate

蒙特卡洛学习全球十大算法排名第二，对多次环境的采样对环境进行模拟。

Monte-Carlo Prediction: 评价当前策略好坏，一般思想：对于任意给定策略π，agent 执行action，估计相应的状态值。我们需要通过执行episode 中出现状态s的数目N(s),多次reward 值得平均值来计算相应的动作值或者状态值。计算有两种方式：第一次预见蒙特卡洛策略的评价，和每次预见蒙特卡洛的评价。

First Visit

做实验假如每次以1/4概率选取四个选择之一，得到很多状态s，first只取预见第一个s时的at, value is estimated by mean return 趋近于标准期望。

相对于动态规划是绝对贪婪策略，找到最大的return 先用策略得到Q表然后找到最佳策略，再去更新Q table 再更新策略。

考虑策略的方法是绝对贪婪的

深度理解强化学习

授课教师

最新学员

学员动态