首页 AI学术青年与开发者社区

【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

开课时间:2018年12月20日
开课时长:26讲

课程概览

1:从监督学习到制定决策

2:model-free的算法,如价值学习策略,策略梯度,演员批评家策略等

3:高级的模型学习和预测

4:已知最优策略与探索策略

5:迁移学习、多任务学习、及元学习

6:开放问题、研究讲座、客邀讲座

 

强化学习第一课

1:如何建立一个智能机器

强化学习为非结构化环境中的学习提供了一种形式。代理与环境之间通过决策与反馈进行学习。

2:什么是深度强化学习,为何关注它

深度学习提供了端到端的训练学习,好处是不用人的手动调节,本身是自适应的目标最优化的过程。

强化学习在现实中的限制为:找到正确的特征使得增强学习算法表现优异。

3:端到端学习对决策的意义

端到端的学习节省时间,不用人工手动调节。

深度模型使强化学习算法可以端到端的解决复杂问题。 

4:为何是现在

深度学习、强化学习、计算机算力已经取得了突破性的进展。 

5:深度强化学习的基本概念

深度学习部分:处理复杂的感知输入。

强化学习部分:选择复杂的行动。

 

 

[展开全文]

可以看到,特征的选择已经由深度学习端到端的链接解决了,可能更重要的问题是如何设置action和reward,以及和深度学习结构的耦合,最后还有数据(场景)的理解。

[展开全文]

第一节课主要就是例行介绍啦

主要是介绍深度强化学习可以用来做什么

很接地气的第一节课, 可以快速融入新课程的学习, 引发学生兴趣

[展开全文]

与机器学习向深度学习推进一样,强化学习迈向深度强化学习,目标是为了实现端对端决策。

这部分对无人驾驶决策控制块很有启发,值得深入研究

如果两端距离太远,导致太复杂,会失败。因为最开始随机碰到这个奖励的概率太低,狮子猎杀羚羊的例子说明这个问题:如果设置吃到羚羊为最终奖励,那狮子肯定会饿死。

 

 奖励是什么很重要

 

[展开全文]

1.深度强化学习,是引入深度学习技术的强化学习技术

2.深度强化学习,注重与环境交互,在和环境交互中持续获得智能

3.深度强化学习,不必从模拟高级成人智能开始,可以先模拟低级儿童智能

[展开全文]

需要机器学习基础和强化学习相关基础,因为主要是面向博士生的课程。课程默认Tensorflow作为编程框架,自动微分课程

 

 

[展开全文]

这里讲到RL是提供决策的。后面说道生理上的奖励来源于bg,不过最初真实的是来源于食物奖励,信号并不仅仅给bg,还对amyg有作用,行为的直接控制是bg,类似rl中的pg,而q-learning中的value则类似amyg,真实的控制是两个一起的,里面情况极端复杂,详细可参考sg的motivation model与telos model。

[展开全文]
  • 主要是针对博士生水平,需要先修机器学习类课程
  • 课程提供的基础代码基于tensorflow;编程语言基于python
  • 强化学习
    • 深度学习就能够帮助我们解决这类非结构化问题,比如图像识别、语音识别,但是不能用来做出决策
    • 强化学习使得智能体与环境进行交互,通过反馈机制形成决策
    • 几个要素:observations; rewards; actions
    • 实际上是很多其他机器学习问题的泛化
  • 深度强化学习
    • 结合深度学习和强化学习的端到端优化方法
    • 利用深度学习的自动特征提取能力
    • 利用强化学习的序列决策能力
  • 为什么现在学习深度强化学习
    • deep learning取得了很好的进步
    • 强化学习取得了很大的进步
    • 算力的极大提升
  • 解决现实世界中序列决策问题时需要解决的其它问题
    • 逆强化学习(inverse learning):从样本中学习奖励函数
    • 迁移学习(transfer learning):领域间知识的迁移
    • 学习预测并利用预测结果来执行动作
  • Rewards
    • 现实中很难定义和衡量
    • 有些奖励非常稀疏
    • 从示范中学习:复制观察到动作,从观察中推断奖励
    • 从观察中学习
      • 学习预测
      • 无监督学习
    • 迁移学习
    • 元学习
  • 如何构建智能体
    • 学习是智慧的根本
    •  假设一个或几个简单的算法可以解决
      • 能够处理丰富的感官输入
      • 能够产生动作
  • 为什么深度强化学习?
    • Deep:可以处理复杂的感官输入
    • Reinforcement learning:能够选择复杂动作
    • 看似符合构建智能体的条件
  • DRL做的好的地方
    • 简单、已知规则的领域,如棋类
    • 通过原生感官输入和大量经验来学习简单的技能,如机器人抓取
    • 通过模仿人类专家来学习,如自动驾驶
  • 挑战
    • 学习速度
    • 知识重用
    • 奖励函数如何定义
    • 预测所扮演的角色不太清楚
[展开全文]

本节主要对Deep RL进行了简介, 没有涉及具体的算法。

相对于传统的机器人控制,深度强化学习提供了一种端对端(end to end)解决复杂连续控制问题的方法。

随着近年深度学习的发展、强化学习的发展以及计算能力的发展,现在正是学习深度强化学习的好时机。

不同于电脑游戏,现实世界中的Reward十分难以定义,也不易进行量化。

几种思路:

1.从模仿中学习:直接重复观察到的动作;从观察到的动作中得到reward(逆强化学习)

2.从观察世界中学习:学习预测

3.从其他任务中学习:迁移学习;元学习

人类初始拥有一些技能如走路,但人类更多的技能由学习得来,如开车。

构建一种“简单的算法”拥有学习能力可能是问题的关键。

这种算法需要1.接受大量不同的输入

2.选择复杂的输出

深度强化学习正好可以做到这两点。

当然现阶段的DRL有着学习速度慢,不能重复利用现有经验,奖励函数定义困难等缺点,距离人类智慧还有一大段距离。

 

[展开全文]

强化学习三个要素:状态、动作、回报。智能体通过智能决策系统,做一个动作,之后观察环境,得到下一个状态和回报,然后将(si,ai,ri,s(i+1))用于更新该策略网络/值网络,以便下次作出让回报更大的动作。

强化学习的意义:free of model,我们无需手动设计出复杂的特征算子,只需要输入一张图片,强化学习算法就可以端对端的输出需要的结果(动作/标签等)。

[展开全文]

进入小组观看课程

以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流