首页 AI学术青年与开发者社区

【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

开课时间:2018年12月20日
开课时长:26讲

给一个小建议哈,对于一些专有名词,如果没有统一固定的中文翻译是否可以不翻译呢?

(1)为什么需要学习模型?

答案是明确的,因为model-base的方法有着其自身的优点,比如数据效率高。而在一些任务中,如果模型是已知的,那么就可以利用上一节中的算法比如MCTS/LQR去做规划,而不需要大量跟环境做交互。

(2)各种版本的model

2.1 model version 0.5

流程: 见幻灯片 p7

疑问: v0.5中plan怎么做呢?(是否在hw中会有涉及?)

奏效场合: 对于可以利用专家知识构建模型,仅需要拟合少数的情况,v0.5奏效.

不奏效场合: 以图中悬崖示例。 不奏效的原因是产生数据的策略和真实环境的分布不一致。

2.2 model version 1.0

该版本相对于v0.5增加了:不断继续从利用已有模型做planning,利用planning的action跟环境继续交互,进一步添加训练环境模型所需数据,目的在于借鉴v0.5中pi_0和pi_f不一致问题.

2.3 model version 1.5

该版本相对于v1.0,在原有plan之后增加逻辑: 仅执行第一步规划的action,观测执行该action的结果。

疑问:若观测到此时s '不符合预期,如何干预已有过程呢? (待查代码验证)

2.4 model version 2.0

(3)

 

 

 

[展开全文]

进入小组观看课程

以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流