给一个小建议哈,对于一些专有名词,如果没有统一固定的中文翻译是否可以不翻译呢?
(1)为什么需要学习模型?
答案是明确的,因为model-base的方法有着其自身的优点,比如数据效率高。而在一些任务中,如果模型是已知的,那么就可以利用上一节中的算法比如MCTS/LQR去做规划,而不需要大量跟环境做交互。
(2)各种版本的model
2.1 model version 0.5
流程: 见幻灯片 p7
疑问: v0.5中plan怎么做呢?(是否在hw中会有涉及?)
奏效场合: 对于可以利用专家知识构建模型,仅需要拟合少数的情况,v0.5奏效.
不奏效场合: 以图中悬崖示例。 不奏效的原因是产生数据的策略和真实环境的分布不一致。
2.2 model version 1.0
该版本相对于v0.5增加了:不断继续从利用已有模型做planning,利用planning的action跟环境继续交互,进一步添加训练环境模型所需数据,目的在于借鉴v0.5中pi_0和pi_f不一致问题.
2.3 model version 1.5
该版本相对于v1.0,在原有plan之后增加逻辑: 仅执行第一步规划的action,观测执行该action的结果。
疑问:若观测到此时s '不符合预期,如何干预已有过程呢? (待查代码验证)
2.4 model version 2.0
(3)