【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

给一个小建议哈，对于一些专有名词，如果没有统一固定的中文翻译是否可以不翻译呢？

（1）为什么需要学习模型？

答案是明确的，因为model-base的方法有着其自身的优点，比如数据效率高。而在一些任务中，如果模型是已知的，那么就可以利用上一节中的算法比如MCTS/LQR去做规划，而不需要大量跟环境做交互。

（2）各种版本的model

2.1 model version 0.5

流程: 见幻灯片 p7

疑问: v0.5中plan怎么做呢？（是否在hw中会有涉及？）

奏效场合: 对于可以利用专家知识构建模型，仅需要拟合少数的情况，v0.5奏效.

不奏效场合: 以图中悬崖示例。不奏效的原因是产生数据的策略和真实环境的分布不一致。

2.2 model version 1.0

该版本相对于v0.5增加了：不断继续从利用已有模型做planning，利用planning的action跟环境继续交互，进一步添加训练环境模型所需数据，目的在于借鉴v0.5中pi_0和pi_f不一致问题.

2.3 model version 1.5

该版本相对于v1.0，在原有plan之后增加逻辑: 仅执行第一步规划的action，观测执行该action的结果。

疑问：若观测到此时s '不符合预期，如何干预已有过程呢？（待查代码验证）

2.4 model version 2.0

(3)