首页 AI学术青年与开发者社区

【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

开课时间:2018年12月20日
开课时长:26讲

第一课:

1、从计算机视觉上的发展来看,standard的方法是手动标注特征,但是通过深度学习,端到端的方式使得特征自动提取,看起来更加智能,人的参与干涉更少

2、从强化学习来看,standard的是需要找到正确的特征使得增强学习算法表现优异,但这通常是很困难的,但是通过深度强化学习,通过很多特征表示层,这样端到端的学习,可以不必依赖于人工指导,可以自动正确地得到底层特征抽象来帮助我们做出高层的决策

3、而事实上我们对于奖赏机制的定义于现实生活中通常是很困难的,而这里则又衍生出了模仿学习,通过模仿,我们不必自己需要获得奖赏后才能学习到某个行为对于我们的重要性,但是通过模仿学习,我们可以ignore这个就我们人类而言的某些在基底神经节的一些更复杂的机制

4、而通过观察这个世界,我们可以学习来做出一些预测,而通过这些预测,我们就能够基于未来的预测而做出我们现在所想要达到那个预测的行为。

[展开全文]

解锁太慢,直接在youtube上看了第二课。

第二课主要讲了:

1.imitation learning

原理很容易理解,就是人生成了操作序列,然后我们认为人的决策都是对的,所以将该序列的状态作为输入,决策行为作为输出(即每个动作是一个分类,人选择的这个分类概率为1,没有选择的概率为0).然后监督学习就可以了。然而可惜的是没有足够多的负样本。所以当机器学习完毕后肯定有误差,所谓差之毫厘,谬之千里,机器就跑偏了,然而没有跑偏了的样本,导致机器不知道该如何回归正确的路径。所以这里说了三个方法:1.采样三个摄像头,左中右各一个,左右2个就是用来纠偏的,其图像对应的动作分别是向右和向左,经过训练机器就知道如果跑到左边了需要向右。这样我们就有负样本了;2.人工纠偏,就是机器决策并跑了一段距离,获取了一个序列s1,a1,s2,a2...然后人再根据这个状态序列也操作一遍从而获取了纠偏行为样本,机器再学习如何纠偏;3.加噪音,依然是构造纠偏数据,但是是在已有的正确路径上增加噪音来自动构造纠偏样本,但是增加噪音后需要expert,例如人,提供正确的纠偏动作,但是无论是人还是具有expert能力的模拟器都是困难的。

2.非马尔科夫和多模型

非马尔科夫就是要增加时序,所以可以考虑RNN,但是CNN或者self-attention也应该是可以的吧。alphago就是将历史的8步棋都作为输入。

多模型关键是对动作的分类,如果是softmax输出,输出的总是离散动作的选择概率,就是一个多分类问题,所以如果是连续动作必须要离散。离散成功后多模型就自然解决了,因为选择的是具体的动作,这就是第一个多高斯分布的方法。但是如果是回归模型,输出的是动作的各个维度的值,例如方向,速度等等,就可能会被平均了,这就需要增加隐变量,实际上就是把动作的维度映射到另外一个空间中。例如绕过障碍向左和向右都可以,我们不能把这个给平均到中间方向,所以如果映射到高维,就避免了平均问题,因为不同的维度是不能平均的,形象一点理解就是我们把方向分成左路//中路/右路三个中间维度(但是实际上神经网络学习出的隐状态是无法直观理解的),最后在加权合并为最终输出的方向,最终输出方向很可能概率向左或者向右,而不会出现在中间,因为中间隐变量几乎没有输出。这就是第二种方法,第三种是如何对高维度连续动作进行离散,课程中说一个个维度分别离散,而不是组合起来,这就又有点像是RNN了,将多个卷积串连起来,每次只输出一个维度。

 

[展开全文]

1.首先这门课程需要的铺垫性课程:CS189,CS289,CS281A

2.介绍Computer Vision、Deep Learning和Reinforcement Learning概念。

3.介绍Reinforcement Learning的应用与当前研究进展。

[展开全文]

1、强化学习本质上就是给出了一种可以处理决策的数学框架
2、将神经网络与强化学习结合,TD gammon就是结合两者得到一个价值函数。变换的算法是拟合值迭代
3、端到端学习:需要高层次的抽象
4、 深度强化学习的挑战:奖励函数到底是什么样子的
模仿学习
预测,学习机制以及简单规

[展开全文]

深度强化学习试图让我们明白,与其直接模拟一个成熟的行为,不如先建立一个拥有学习能力的对象,然后再给它施加适当的教育,让他自己去学习理解这个世界,这样更加接近人工智能的未来。

[展开全文]

Deep Reinforcement Learning 

主要讲述了该课程的学习环境

强化学习的背景和应用范式

[展开全文]

深度强化学习中deep用来识别环境中的各种复杂信号,reinforcement用来做出复杂的决策。要做的简而言之不是教会智能体如何面对特定情境如何做而是怎么学。

[展开全文]

CS294学习笔记

1 深度学习的特点:处理非结构化的信息。

2 强化学习的特点:强化学习是用来做决策的数学框架。

3 深度强化学习:结合深度学习和强化学习的特点,在强化学习的框架中使用深度学习这个强大工具,为机器人赋予在复杂真实世界中自动决策的能力。

[展开全文]

可以结合着David Silver的课程看效果更好,研究生课程所以基础理论部分不会很详细,总体还是很棒滴,翻译好评

[展开全文]

1. 感知和决策;

2. TD gammon;

3. 增强学习和深度网络;

4. 特征:HOG, CO-HOG,LBP,SHIFT;

  features + svm实现分类;

5.决策:高级抽象

[展开全文]

进入小组观看课程

以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流