【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

课程概览

1：从监督学习到制定决策

2：model-free的算法，如价值学习策略，策略梯度，演员批评家策略等

3：高级的模型学习和预测

4：已知最优策略与探索策略

5：迁移学习、多任务学习、及元学习

6：开放问题、研究讲座、客邀讲座

强化学习第一课

1：如何建立一个智能机器

强化学习为非结构化环境中的学习提供了一种形式。代理与环境之间通过决策与反馈进行学习。

2：什么是深度强化学习，为何关注它

深度学习提供了端到端的训练学习，好处是不用人的手动调节，本身是自适应的目标最优化的过程。

强化学习在现实中的限制为：找到正确的特征使得增强学习算法表现优异。

3：端到端学习对决策的意义

端到端的学习节省时间，不用人工手动调节。

深度模型使强化学习算法可以端到端的解决复杂问题。

4：为何是现在

深度学习、强化学习、计算机算力已经取得了突破性的进展。

5：深度强化学习的基本概念

深度学习部分：处理复杂的感知输入。

强化学习部分：选择复杂的行动。

[展开全文]

马休•布龙菲 · 2019-01-19 · 第一讲：课程介绍和概览 4

可以看到，特征的选择已经由深度学习端到端的链接解决了，可能更重要的问题是如何设置action和reward，以及和深度学习结构的耦合，最后还有数据（场景）的理解。

[展开全文]

fogo · 2019-01-18 · 第一讲：课程介绍和概览 0

第一节课主要就是例行介绍啦

主要是介绍深度强化学习可以用来做什么

很接地气的第一节课, 可以快速融入新课程的学习, 引发学生兴趣

[展开全文]

庄生 · 2019-01-18 · 第一讲：课程介绍和概览 0

与机器学习向深度学习推进一样，强化学习迈向深度强化学习，目标是为了实现端对端决策。

这部分对无人驾驶决策控制块很有启发，值得深入研究

如果两端距离太远，导致太复杂，会失败。因为最开始随机碰到这个奖励的概率太低，狮子猎杀羚羊的例子说明这个问题：如果设置吃到羚羊为最终奖励，那狮子肯定会饿死。

奖励是什么很重要

[展开全文]

徐志 · 2019-01-16 · 第一讲：课程介绍和概览 0

1.深度强化学习，是引入深度学习技术的强化学习技术

2.深度强化学习，注重与环境交互，在和环境交互中持续获得智能

3.深度强化学习，不必从模拟高级成人智能开始，可以先模拟低级儿童智能

[展开全文]

梦娜•多丽丝 · 2019-01-11 · 第一讲：课程介绍和概览 0

需要机器学习基础和强化学习相关基础，因为主要是面向博士生的课程。课程默认Tensorflow作为编程框架，自动微分课程

[展开全文]

维隆卡•卢卡 · 2019-01-11 · 第一讲：课程介绍和概览 0

这里讲到RL是提供决策的。后面说道生理上的奖励来源于bg，不过最初真实的是来源于食物奖励，信号并不仅仅给bg，还对amyg有作用，行为的直接控制是bg，类似rl中的pg，而q-learning中的value则类似amyg，真实的控制是两个一起的，里面情况极端复杂，详细可参考sg的motivation model与telos model。

[展开全文]

Qmax_2012 · 2019-01-11 · 第一讲：课程介绍和概览 0

主要是针对博士生水平，需要先修机器学习类课程
课程提供的基础代码基于tensorflow；编程语言基于python
强化学习
- 深度学习就能够帮助我们解决这类非结构化问题，比如图像识别、语音识别，但是不能用来做出决策
- 强化学习使得智能体与环境进行交互，通过反馈机制形成决策
- 几个要素：observations; rewards; actions
- 实际上是很多其他机器学习问题的泛化
深度强化学习
- 结合深度学习和强化学习的端到端优化方法
- 利用深度学习的自动特征提取能力
- 利用强化学习的序列决策能力
为什么现在学习深度强化学习
- deep learning取得了很好的进步
- 强化学习取得了很大的进步
- 算力的极大提升
解决现实世界中序列决策问题时需要解决的其它问题
- 逆强化学习(inverse learning)：从样本中学习奖励函数
- 迁移学习（transfer learning)：领域间知识的迁移
- 学习预测并利用预测结果来执行动作
Rewards
- 现实中很难定义和衡量
- 有些奖励非常稀疏
- 从示范中学习：复制观察到动作，从观察中推断奖励
- 从观察中学习
  - 学习预测
  - 无监督学习
- 迁移学习
- 元学习
如何构建智能体
- 学习是智慧的根本
- 假设一个或几个简单的算法可以解决
  - 能够处理丰富的感官输入
  - 能够产生动作
为什么深度强化学习？
- Deep：可以处理复杂的感官输入
- Reinforcement learning：能够选择复杂动作
- 看似符合构建智能体的条件
DRL做的好的地方
- 简单、已知规则的领域，如棋类
- 通过原生感官输入和大量经验来学习简单的技能，如机器人抓取
- 通过模仿人类专家来学习，如自动驾驶
挑战
- 学习速度
- 知识重用
- 奖励函数如何定义
- 预测所扮演的角色不太清楚