【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

content:

1. Sequential decision problem;

2. Imitation learning: supervised learning for decision making;

3. Strengths and weaknesses of Imitation learning;

symbol:

pi: distribution

theta: the parameters of a distribution

pi(a|o) partially observed, just observation

pi(a|s) fully observed, underlying state of the world

sequential decision:

conditional independence, given s2, we have a2, you can not get more precise information even if you know s1.

DAgger:

goal: collect traing data from pi_theta(a|o);

run pi_theta(a|o) to get o;

label dataset o;

aggregation and repeat;

DAgger addresses the problems of distributional drift.

Problem:

1. non-markovian behavior

2. multimodal behavior

Solution:

1. RNN neural network to use history information. behavior depends on past observations.

2. Output mixture of Gaussians

3. Latent variable models

4. Autoregressive discretization

Imitation Learning:

imitation learning can sove sequential decision problem, however, due to distribution mismatch problem, sometime it is insufficient.

Some topics in imitation learning:

structured prediction

inverse reinforcement learning

Maths behind it, need books, paper and pen!

[展开全文]

myres · 2019-01-27 · 第二讲：监督学习和模仿学习 0

第二课：监督学习与模仿学习

课程概览：

1、序列决策问题的定义

2、模仿学习：监督学习在决策制定的应用

a.直接模仿是否有效

b.如何使其长期有效

3、近期在深度模仿学习中的几个学习案例

4、模仿学习中忽略的部分

今天的学习目标：

1、理解定义域标记

2、理解基础的模仿学习算法及它们的优缺点

术语与符号

稍后课程会介绍马尔科夫链的定义；

模仿学习

案例：通过视频记录的道路信息和司机对方向盘的控制进行监督学习，使模型学会驾驶，这叫做行为克隆。

效用：对于序列决策问题，刚开始误差很小，但是随后出现了未出现的状态，然后经过长时间的决策误差加大。解决方案：收集足够多的数据，能覆盖所有的情况和道路。

其他解决方法：

1、三个相机（左中右），处理偏移问题（微小误差）问题。左右相机处理微调问题，中间相机控制实际方向。

2、DAagger:Dataset Aggregation

使Pdata(Ot)=Ppi(Ot),策略：改变Pdata,使自身数据更灵活有效聪明，消除数据集的分布不一致性。方法：跑一下pi theta采样，给采集的数据标记，收集数据是一个互动的过程。

步骤：

1、收集数据集，并使用pi theta训练，得到新的数据集；

2、让专家给每个数据标记，得到标签；

3、数据聚合，然后不断重复上述步骤；

存在的问题：数据量大、需要大量时间标注；

拟合专家数据失败的原因

1、无马尔科夫行为；

2、多模型行为；

模仿学习概括

有时候无效：数据分布不匹配问题

有时候很有效：添加数据、设计更好的结构等

学习案例

1、无人机跟随路径飞行

2、使用LSTM模仿--机器人控制任务

模仿学习的问题

1、人类需要提供数据，但数据是有限，而当数据充足时，深度学习的效果更好；

2、人类并不善于提供多样化的行为动作；

3、人类可以自动学习，而机器不行；

[展开全文]

马休•布龙菲 · 2019-01-19 · 第二讲：监督学习和模仿学习 1

supervised learning and imitation learning

P(a|o)

P(a|s)

状态s1,s2,s3...之间独立

或依赖于前一状态（马尔可夫链）

imitation learning

behavior cloning: 自动驾驶领域，学习人类的观察o和驾驶方式a

这个方法不好：误差积累

NVIDIA用三个摄像头互相调整转向角度

解决分布不匹配问题？

人工引入噪音，让算法去纠正它

DAgger:Dataset Aggregation

goal:collect training data from P(pi) instead of P(data)

1、train P(pi) from human data D

2、run P(pi) to get dataset D(pi)

3、label D(pi) with actions a(t)

4、aggregate D=D+D(pi)

无法拟合专家行为的情况

1、非马尔可夫行为（不管现在的状态，有自己的计划）

2、多模型行为（output mixture of Gaussians, latent variable models, Autoregressive discretization)

output mixture of Gaussians

模型输出多个均值和方差

latent variable models

加入额外的输入（随机数）

autoregressive discretization

总结：

一些技巧（左右摄像头）

稳定的趋势分布

一些策略（DAgger)

更好的模型

other topics in imitation learning :

structured prediction

inverse reinforcement learning

imitation learning's problem:

humans' data finite(数据有限）

human are not good at providing some kinds of actions（一些数据不好得到）

能自主学习吗？

c(s(t), a(t)) cost function

r(s(t), a(t)) reward function

数值上互为相反数

总损失的期望值

就算概率足够小，但路径足够长，损失也会很大

改变假设，使得同分布，收敛于episio*T

[展开全文]

auto_SimonSTYL · 2019-01-15 · 第二讲：监督学习和模仿学习 0

本节课内容：

序列决策问题的定义
模仿学习：用于决策问题的监督学习
模仿学习的典型算法
模仿学习的缺陷

一些标记：输入信息observation $o_{t}$

输出信息action $o_{t}$

参数化的模型 $\pi_{\theta}(a_{t}|o_{t})$ 即策略

状态 $s_{t}$

s与o的区别在于，o为观察得到的信息，如一副图片等；s为环境的物理信息表示，如位置等。

状态转移方程 $p(s_{t+1}|s_{t},a_{t})$

马尔可夫性质：如果当前状态精确可知，则未来的状态相对过去的状态独立。

行为克隆behavior cloning：将人类数据作为训练数据进行监督学习

缺陷：微小误差会演变为巨大误差

Nvidia方法：增加左右两个摄像机学习调整纠偏

一种方法：从一个稳定的控制器stabilizing controller中进行监督学习

DAgger算法：使人类数据p data等于策略行为数据，运行pi theta 然后人类为其加入标签

从人类数据D中训练出pi theta
运行pi theta得到数据集D pi（观察数据）
让人来为D pi加入actions
整合D与D pi
重复训练

缺陷：很多任务让人来打标签并不自然，也需要很多资源

对于非马尔科夫决策：利用之前的所有观察信息

使用如RNN的算法

对于多模型行为：

输出混合高斯分布
使用隐变量模型
自动回归离散化

混合高斯分布：输出N个均值N个方程，也叫混合密度网络

隐变量模型：在末端加入一个随机的噪声，利用噪声来选择输出

自动回归离散化：对于高维连续的行为空间，分步进行抽样，每步离散一个维度的分布，并将抽样的结果作为下一个维度的输入。

这样网络只是线性的增长而不是指数的增长

例子1：无人机穿越森林

例子2：利用LSTM和混合高斯分布控制机器人

模仿学习的问题：

人类能提供的数据是有限的
人类并不擅长提供某些行为
人类是可以自学的

成本函数 $c(s_{t},a_{t})$

奖励函数 $r(s_{t},a_{t})$

关于成本函数的分析：

假设策略pi发生错误的概率小于等于epsilon

即 $\pi_{\theta}(a\neq \pi^{s}(s)|s)\leq \epsilon$

都取最大值epsilon

则T个时步的损失为：

$E[\sum_{t}c(s_{t},a_{t})]\leq \epsilon T+(1-\epsilon)(\epsilon(T-1)+(1-\epsilon(...)))$

数量级为 $O(\epsilon T^2)$

更强的假设：对于与训练数据同分布的数据，错误上限说epsilon。意为即使数据不严格与训练数据一样，也认为其上限为epsilon。

对于DAgger算法，则p train看作和p theta相同

则损失的期望为 $\epsilon T$

[展开全文]

普拉斯1995 · 2019-01-12 · 第二讲：监督学习和模仿学习 0