首页 AI学术青年与开发者社区

【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

开课时间:2018年12月20日
开课时长:26讲

 

 

计算机视觉中,将低级特征逐渐提取,(如HOG-SVM),逐渐高级,使用深度神将网络能够端到端地学习其中特征。

 

传统强化学习使用特征标识,需要标识特质和值函数,而使用深度神经网络,可以实现端到端的特征提取。

[展开全文]

Introduction

先导部分可以在一下网站学习:https://www.tensorflow.org/guide/low_level_intro

要精通Python

 

课程内容:

1.From supervised learning to decision making problems

2.Model-free algorithms: Q-learning, policy gradients, actor-critic

3.Model-based reinforcement learning and some advanced topics and prediction

4.Exploration

5.Transfer and multi-task learning, meta-learning

6.Open problems, research talks, invited lectures

 

What is reinforcement learning, and why should we care?

deep learning helps us handle unstructured environments

but doesn't tell us anyuthing about decision-making

 

RL gives us the mathematical framework for dealing with decision making

In RL, we have an agent that makes decisions we should call actions

the world responds with consequences we should call observations and rewards

RL actually generalizes many other machine learning

 

Why should we study this now

1.Advances in DL

2.Advances in RL

3.Advances in computational capability

 

Beyond learning from reward

  • Basic RL deals with maximizing rewards

  • This is not the only problem that matters for sequential decision making!

  • We will cover more advanced topics

    • Learing reward functions from example (inverse RL)

    • Transferring knowledge between domains (transfer learning, meta-learning)

 

Where do rewards come from?

Game --> score

well-defined notion of success might be very difficult to measure

 

What can DL & RL do well now?

  • Acquire high degree of proficiency in domains governed by simple, known rules

  • Learn simple skills with raw sensory inputs, given enough experience

  • Learn from imitating enough human-provided expert behavior

 

What has proven challenging so far?

  • Humans can learn incredibly quickly

    • Deep RL method are usually slow

  • Humans can reuse past knowledge

    • Transfer learning in deep RL is an open problem

  • Not clear what the reward function should be

  • Not clear what the role of prediction should be

[展开全文]

强化学习第一课

1:如何建立一个智能机器

强化学习为非结构化环境中的学习提供了一种形式。代理与环境之间通过决策与反馈进行学习。

2:什么是深度强化学习,为何关注它

深度学习提供了端到端的训练学习,好处是不用人的手动调节,本身是自适应的目标最优化的过程。

强化学习在现实中的限制为:找到正确的特征使得增强学习算法表现优异。

3:端到端学习对决策的意义

端到端的学习节省时间,不用人工手动调节。

深度模型使强化学习算法可以端到端的解决复杂问题。 

4:为何是现在

深度学习、强化学习、计算机算力已经取得了突破性的进展。 

5:深度强化学习的基本概念

深度学习部分:处理复杂的感知输入。

强化学习部分:选择复杂的行动。

[展开全文]

这门课得先修课程是 CS189 CS289 CS281A,

这门课主要使用Tensorflow。

[展开全文]

第一讲主要介绍了强化学习以及很多应用的实例。

智能体通过action与环境交互并获得相应的回报,强化学习通过最大化汇报得出一系列合理化的动作。

 

 

强化学习适合在一些简单且已知的环境中,强化学习可以直接处理源信息,并且可以模仿出人类专家的行为。

挑战

强化学习学习起来比较慢

强化学习在利用已有经验方面(transfer learning)存在问题。

回报的合理化定义仍是问题

 关于预测的的角色仍不清晰(大力发展基于模型还是无模型的强化学习)

[展开全文]
  • 深度强化学习:深度学习负责处理非结构化的环境(连续/随机/复杂/不可预测),就像AI的眼睛;而强化学习的部分则是构建一个行动决策体系,不断与环境交互获得奖励,并以最大化奖励函数为目标去寻找最优策略,相当于AI的决策中心。
  • 强化学习问题其实是很多其他机器学习任务的泛化表示。例如NLP中的机器翻译可以用强化学习方式来解决。
  • 对于真实世界中的连续决策问题(Sequential decision making) ,基本的奖励函数驱动的解决思路可能并不够,需要更多其他的解决方案。(课程后面会涉及到的高级主题)

     1. 模仿学习 

         1.1  直接模仿 learning from demonstration
         1.2  逆向强化学习 ( 从数据/样例中学习奖励函数)

      2.  通过观察世界学习

         2.1 预测; 2.2 非监督学习

      3.  从其他任务中学习

       3.1 迁移学习(不同领域之间的知识迁 移)  3.2 Meta-learning 

[展开全文]
强化学习是其他算法的泛化,但是其应用受限于问题,如何选择激励函数,或者如何构建有意识的智能体,需要有大容量和好的决策,强化学习与深度学习结合很有前景。
[展开全文]

1. 通过机器人科幻小说引入话题:如何build intelligent machines? 我们现今的科技与未来的机器人差距在哪里?现今的技术能完成怎样的任务?

2. 深度学习直接根据raw sensor signal来可以处理unstructured environments

 3. 机器人不仅要识别环境,还要根据此作出decision,RL 提供一个mathematical formalism for decision.

4. 过去的RL一些学习特征需要人为设计,而深度学习则能帮助RL端到端的学习更为复杂问题。好处在于:

4.1. 不用人为设计特征

4.2. 可以自动学习到最优策略

 

5. 2018是学习DRL的好时机:

5.1 Advances in DL

5.2 Advances in RL

5.3 Advances in Computational Capability

 

6. RL与DL结合产生出更强效果的idea早25年已经出现,但一直都缺乏一些正确的细节technique来使其变得有实际意义。

 

7. Reward在现实任务中很难定义

7.1 Imitation Learning

7.2 Inverse RL

 

8. Why DRL?

8.1 Deep = can process complex sensory input, and also compute really complex functions.

8.2 RL = can make decision

[展开全文]
主要讲了强化学习的概念,简单易懂地解释了背景,并引出了深度强化学习的理念,期待下一讲。
[展开全文]
强化学习是机器器学习领域之⼀一,受到⾏行行为⼼心理理学的启发,主要关注智能体如何在环境中采取不不同的⾏行行动, 以最⼤大限度地提⾼高累积奖励。 智能体通过强化学习,可以知道⾃自⼰己在什什么状态下,应该采取什什么样的动作使得⾃自身获得最⼤大奖励。由 于智能体与环境的交互⽅方式与⼈人类与环境的交互⽅方式类似,可以认为强化学习是⼀一套通⽤用的学习框架,可⽤用 来解决通⽤用⼈人⼯工智能的问题。因此强化学习也被称为通⽤用⼈人⼯工智能的机器器学习⽅方法。
[展开全文]

进入小组观看课程

以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流