首页 AI学术青年与开发者社区

【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

开课时间:2018年12月20日
开课时长:26讲

深度强化学习

  1. 从监督学习到决策任务

  2. 免模型算法:Q-learning,policy gradients,actor-critic

  3. 先进的模型学习和预测?

  4. exploration?

  5. 迁移学习和多任务学习,元学习

  6. 开放问题???

  • 深度学习解决复杂环境感知

  • 强化学习提供决策(主要针对马尔科夫决策问题-考虑长期效益:如文本翻译,简单决策也可以做:如图像分类,但监督学习已经做的很好了)

  • 深度强化学习提供从观察到行动的end-to-end的训练过程

有趣的例子:

  1. Atari游戏,输入:图像;输出:向左或右移动

  2. 捡垃圾的机器手,输入:图像;输出:对机械手的连续控制

  3. 交通管理,

这是一个有趣的例子:只能控制一个车子的前进速度,却要对整个交通进行管理。输入:整个交通车辆状态(这在现实中是不可能已知的,更可能的是已知部分交通状况,而且其变化范围要大的多,但也许依然可以干好呢!);输出:一个车子的前进速度

关键是仅仅一个微小的控制力,就能产生整体的效益,真的漂亮!

奖励之外的学习

  • 基础的强化学习是解决最大化奖励的

  • 这并不是序列决策任务的唯一问题

更多的话题:

  • 从样例中学习奖励函数(逆强化学习)

  • 迁移其他领域的知识(迁移学习,元学习)

  • 学习预测并利用预测去行动

现实中的奖励来自哪里?

  • 从范式中学习

    • 直接拷贝已知的行为(模仿学习:自动驾驶,alphago的早期版本)

    • 从已知行为推断奖励(逆强化学习,推断目标)

  • 从观察世界中学习

    • 学习预测未来

    • 无监督学习(自编码:学习世界的构成原理)

  • 从其他任务中学习

    • 迁移学习

    • 元学习:学会学习

[展开全文]

1. 强化学习是一门历史长久的学问。

2. 深度学习通过端到端,自行学习特征,此特征甚至有时候无法解释

3.  深度强化学习近年取得进展得益于:

1.   深度学习的进展

2.  强化学习方面的进展

3.  计算能力的提高

 

[展开全文]

How do we build intelligent machines?

all unexpected events that happen in the real world:

  • doing its job without people(无人化)
  • deal with the physicality(物理接触)
  • visual complexity(视觉识别上的复杂性)
  • the diversity(环境多样性)

Intelligent machines

short of(challenge):

  • adaptability(适应性)
  • flexibility(灵活性)

good at:

  • calculation(计算)
  • fast reactions(快速响应)
  • complicated planning(复杂规划)

 

Deep learning helps us handle unstructured(can't predict in advence how everthing will be laid out,diversity and variety)environments,but doesn't tell us anything about decision-making. 识别

build models that can deal with raw sensory observations(建立可以处理原始传感器信息的模型)

 

图像识别,translate text(文字识别),recognize speech(语音识别)

Reinforcement learning provides a formalism for behavior(the framework for dealing with decision making)

 

the circle continues to evolve

What is deep RL?

                   computer vision

 

  • designing the right feature by hand(人为定义) for computer vision(计算机视觉) is very important.
  • classifier: learning happens 

 

DL和传统的比:

  • basic pipeline is almost same: have multiple layers of representation
  • how it's trained is different: all of the layers are trained end to end(端到端)to optimize final performance(目标最优化)on the task
  • 2 benefits:
  1. don't have to design feature manually(不需要手动提取特征)
  2. adapted to the task at hand(任务自适应):find the right features for solving the particular problem(以优化特征为主)

 

  • constrained by the ability designed the right features that could make right reinforcement learning algorithms behave well(被“定义的特征能否使得强化学习算法表现优异的能力“”所限制)

 

  • don't need to rely on human and optimize the features at hand
  • have the right low level representation(底层特征抽象) that make the right high-level decision

 

 

 

 

 

[展开全文]

机器学习算法大致可以分为三种:

1. 监督学习(如回归,分类)

2. 非监督学习(如聚类,降维)

3. 增强学习

 

什么是强化学习(增强学习)

定义: Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.[1] 

即:增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报

 

智能体:增强学习有一个学习者,称之为智能体。

策略:通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。

 

 

RL最重要的3个特性:

(1)通常是一种闭环的形式;

(2)不会直接指示选择哪种行动(actions);

(3)一系列的 actions 和奖励信号(reward signals)都会影响之后较长的时间。

 

为什么要研究深度增强学习

现阶段,深度学习已经能够帮我们解决一些复杂性,多变性,非结构化的问题,比如:CV,NLP等,

所以我们希望在深度学习的基础上,能让增强学习算法更进一步解决更复杂的决策性问题。

比如:通过深度学习,发现前方有一只老虎,这时该做什么决策,赶紧溜啊(决策)。

 

参考资料:

[1] R.Sutton et al. Reinforcement learning: An introduction

[展开全文]

深度学习:1)处理非结构化环境问题。在实际的场景中,我们要面对的主要是非结构化问题,即我们不能完整的观测并预测到周围的环境。

2)处理复杂的多传感器输入数据。通过深度学习能有效提取物体特征(例如图像特征)的能力,把输入的数据特征提取出来(包括高维特征和低维特征)

强化学习:1)提取特征能力差

2)算法善于做出多种决策

通过将DL和RL结合,通过端到端的深度学习提取输入特征,利用RL根据提取到的特征进一步做出决策,形成agents通过action作用于world,world得到consequence结果,通过reward的形式强化agents来得到基本强化学习的闭环过程。

 

DRL涉及到的reward的问题:如何定义奖励?如何最大化奖励?

 

端到端学习的连续决策问题:1)基础强化学习的最大化奖励问题

2)逆强化学习。通过从数据出发执行任务,从案例中反向得出奖励函数

3)迁移学习和元学习(通过过去的经验experience replay实现更好更快的学习)

4)学习如何预测以及通过预测去行动

[展开全文]

深度学习能够让machine认识世界,强化学习让machine行动。深度强化学习能够实现end to end,使得能够使得machine具有更强大的决策能力

[展开全文]

如何构建智能机器

1:要能够不断的学习

2:每个模块有一个漂亮的算法

为什么使用深度强化学习来构建智能机器

1:深度部分能够处理复杂的感官输入,比如图像,声音等

2:深度部分也能够模拟任意复杂的函数

3:强化部分提供理论数学基础,为选择行为提供理论支持

 

 

 

 

    

[展开全文]

Elements of RL Systems
•Historyis the sequence of observations, action, rewards Ht=O1;R1;A1;O2;R2;A2;:::;O t¡1;R t¡1;A t¡1;O t;R t H t=O1;R1;A1;O2;R2;A2;:::;O t¡1;R t¡1;A t¡1;O t;R t •i.e. all observable variables up to time t •E.g., the sensorimotor stream of a robot or embodied agent •What happens next depends on the history: •The agent selects actions •The environment selects observations/rewards •Stateis the information used to determine what happens next (actions, observations, rewards) •Formally, state is a function of the history St=f(Ht) St=f(Ht)
Elements of RL Systems •Policy is the learning agent’s way of behaving at a given time •It is a map from state to action •Deterministic policy a=¼(s) a=¼(s) •Stochastic policy ¼(ajs)=P(At=ajSt=s) ¼(ajs)=P(At=ajSt=s)
Elements of RL Systems •Reward •A scalar defining the goal in an RL problem •For immediate sense of what is good
•Value function •State value is a scalar specifying what is good in the long run •Value function is a prediction of the cumulative future reward •Used to evaluate the goodness/badness of states (given the current policy) v¼(s)=E¼[Rt+1+°Rt+2+°2Rt+3+:::jSt=s] v¼(s)=E¼[Rt+1+°Rt+2+°2Rt+3+:::jSt=s]
Elements of RL Systems
•AModelof the environment that mimics the behavior of the environment •Predict the next state
•Predicts the next (immediate) reward Pa ss0=P[St+1=s0jSt=s;At=a] P a ss0=P[St+1=s0jSt=s;At=a] Ra s=E[Rt+1jSt=s;At=a

[展开全文]

core points:

1. imitation learning

2. policy gradients

3. q-learning and actor-critic aglorithm

4. model-based reinforement learning

5. model-free reinforement learning

reinforement learning:

input->features->linear policy or value function->action

deep reinforement learning:

input-> multi-layer features ->action

robotic control pipeline:

observation->state estimation->modeling and prediction-> planning-> low-level control->controls

RL do well:

1. domine governed by simple, known rules

2. learn simple skills with raw sensory inputs, given enough experience

3. learn from imitating enough human provided expert behavior

RL challenges:

1. deep RL method are slow

2. transfer learning in deep RL to reuse past knowledge

3. not clear what the reward function should be

4. not clear what  the role of  prediction should be

 

[展开全文]

第一讲主要为绪论性内容。

尽管强化学习在机器人控制,游戏等领域有了很不错的应用,但核心的两点内容仍无法解决:训练速度,奖励函数形式。现有的很多研究基于人工设计好的状态,以及实物场景不现实的奖励函数,很难有有效应用场景。期待后续章节的介绍。

[展开全文]

进入小组观看课程

以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流