首页 AI学术青年与开发者社区

【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

开课时间:2018年12月20日
开课时长:26讲

content:

1. Sequential decision problem;

2. Imitation learning: supervised learning for decision making;

3. Strengths and weaknesses of Imitation learning;

symbol:

pi: distribution

theta: the parameters of a distribution

pi(a|o) partially observed, just observation

pi(a|s) fully observed, underlying state of the world

sequential decision:

conditional independence, given s2, we have a2, you can not get more precise information even if you know s1.

DAgger:

goal: collect traing data from pi_theta(a|o);

run pi_theta(a|o) to get o;

label dataset o;

aggregation and repeat;

DAgger addresses the problems of distributional drift.

Problem:

1. non-markovian behavior 

2. multimodal behavior

Solution:

1. RNN neural network to use history information. behavior depends on  past observations.

2. Output mixture of Gaussians

3. Latent variable models

4. Autoregressive discretization

Imitation Learning:

imitation learning can sove sequential decision problem, however, due to distribution mismatch problem, sometime it is insufficient.

Some topics in imitation learning:

structured prediction

inverse reinforcement learning

Maths behind it, need books, paper and pen!

[展开全文]

第二课:监督学习与模仿学习

课程概览:

1、 序列决策问题的定义

2、模仿学习:监督学习在决策制定的应用

    a.直接模仿是否有效

    b.如何使其长期有效

3、近期在深度模仿学习中的几个学习案例

4、模仿学习中忽略的部分

今天的学习目标:

1、理解定义域标记

2、理解基础的模仿学习算法及它们的优缺点

术语与符号

稍后课程会介绍马尔科夫链的定义;

模仿学习

案例:通过视频记录的道路信息和司机对方向盘的控制进行监督学习,使模型学会驾驶,这叫做行为克隆。

效用: 对于序列决策问题,刚开始误差很小,但是随后出现了未出现的状态,然后经过长时间的决策误差加大。解决方案:收集足够多的数据,能覆盖所有的情况和道路。

其他解决方法:

1、三个相机(左中右),处理偏移问题(微小误差)问题。左右相机处理微调问题,中间相机控制实际方向。

2、DAagger:Dataset Aggregation

使Pdata(Ot)=Ppi(Ot),策略:改变Pdata,使自身数据更灵活有效聪明,消除数据集的分布不一致性。方法:跑一下pi theta采样,给采集的数据标记,收集数据是一个互动的过程。

步骤:

    1、收集数据集,并使用pi theta训练,得           到新的数据集;

    2、让专家给每个数据标记,得到标签;

    3、数据聚合,然后不断重复上述步骤;

存在的问题:数据量大、需要大量时间标注;

拟合专家数据失败的原因

1、无马尔科夫行为;

2、多模型行为;

模仿学习概括

有时候无效:数据分布不匹配问题

有时候很有效:添加数据、设计更好的结构等

学习案例

1、无人机跟随路径飞行

2、使用LSTM模仿--机器人控制任务

模仿学习的问题

1、人类需要提供数据,但数据是有限,而当数据充足时,深度学习的效果更好;

2、人类并不善于提供多样化的行为动作;

3、人类可以自动学习,而机器不行;

 

 

[展开全文]

supervised learning and imitation learning

P(a|o)

P(a|s)

状态s1,s2,s3...之间独立

或依赖于前一状态(马尔可夫链)

imitation learning

behavior cloning: 自动驾驶领域,学习人类的观察o和驾驶方式a

这个方法不好:误差积累

NVIDIA用三个摄像头互相调整转向角度

 

解决分布不匹配问题?

 

人工引入噪音,让算法去纠正它

 

DAgger:Dataset Aggregation

goal:collect training data from P(pi) instead of P(data)

1、train P(pi) from human data D

2、run P(pi) to get dataset D(pi)

3、label D(pi) with actions a(t)

4、aggregate D=D+D(pi)

 

无法拟合专家行为的情况

1、非马尔可夫行为(不管现在的状态,有自己的计划)

2、多模型行为(output mixture of Gaussians, latent variable models, Autoregressive discretization)

output mixture of Gaussians

模型输出多个均值和方差

 

latent variable models

加入额外的输入(随机数)

 

autoregressive discretization

 

总结:

一些技巧(左右摄像头)

稳定的趋势分布

一些策略(DAgger)

更好的模型

 

other topics in imitation learning :

structured prediction

inverse reinforcement learning

 

imitation learning's problem:

humans' data finite(数据有限)

human are not good at providing some kinds of actions(一些数据不好得到)

能自主学习吗?

c(s(t), a(t)) cost function

r(s(t), a(t)) reward function

数值上互为相反数

 

 

总损失的期望值

 

就算概率足够小,但路径足够长,损失也会很大

改变假设,使得同分布,收敛于episio*T

 

[展开全文]

本节课内容:

  • 序列决策问题的定义
  • 模仿学习:用于决策问题的监督学习
  • 模仿学习的典型算法
  • 模仿学习的缺陷

一些标记:输入信息observation

输出信息action 

参数化的模型即策略

状态

s与o的区别在于,o为观察得到的信息,如一副图片等;s为环境的物理信息表示,如位置等。

状态转移方程

马尔可夫性质:如果当前状态精确可知,则未来的状态相对过去的状态独立。

行为克隆behavior cloning:将人类数据作为训练数据进行监督学习

缺陷:微小误差会演变为巨大误差

Nvidia方法:增加左右两个摄像机学习调整纠偏

一种方法:从一个稳定的控制器stabilizing controller中进行监督学习

DAgger算法:使人类数据p data等于策略行为数据,运行pi theta 然后人类为其加入标签

  1.  从人类数据D中训练出pi theta
  2. 运行pi theta得到数据集D pi(观察数据)
  3. 让人来为D pi加入actions
  4. 整合D与D pi
  5. 重复训练

缺陷:很多任务让人来打标签并不自然,也需要很多资源

对于非马尔科夫决策:利用之前的所有观察信息

使用如RNN的算法

对于多模型行为:

  1. 输出混合高斯分布
  2. 使用隐变量模型
  3. 自动回归离散化

混合高斯分布:输出N个均值N个方程,也叫混合密度网络

隐变量模型:在末端加入一个随机的噪声,利用噪声来选择输出

自动回归离散化:对于高维连续的行为空间,分步进行抽样,每步离散一个维度的分布,并将抽样的结果作为下一个维度的输入。

这样网络只是线性的增长而不是指数的增长

例子1:无人机穿越森林

例子2:利用LSTM和混合高斯分布控制机器人

模仿学习的问题:

  1. 人类能提供的数据是有限的
  2. 人类并不擅长提供某些行为
  3. 人类是可以自学的

成本函数

奖励函数

关于成本函数的分析:

假设策略pi发生错误的概率小于等于epsilon

都取最大值epsilon

则T个时步的损失为:

数量级为

更强的假设:对于与训练数据同分布的数据,错误上限说epsilon。意为即使数据不严格与训练数据一样,也认为其上限为epsilon。

 对于DAgger算法,则p train看作和p theta相同

则损失的期望为

 

[展开全文]

进入小组观看课程

以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流