【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

通过代理做动作与环境进行互动获取反馈并按价值函数或惩罚函数来对策略进行优化。

在策略优化过程中存在搜索广度与获取最大价值之间的矛盾，需要针对不同场景进行相应的权衡

mefly · 2019-04-27 · 第四讲：强化学习简介 0

1、强化学习本质上就是给出了一种可以处理决策的数学框架
2、将神经网络与强化学习结合，TD gammon就是结合两者得到一个价值函数。变换的算法是拟合值迭代
3、端到端学习：需要高层次的抽象
4、深度强化学习的挑战：奖励函数到底是什么样子的
模仿学习
预测，学习机制以及简单规

[展开全文]

alliswell · 2019-04-22 · 第一讲：课程介绍和概览 0

深度强化学习试图让我们明白，与其直接模拟一个成熟的行为，不如先建立一个拥有学习能力的对象，然后再给它施加适当的教育，让他自己去学习理解这个世界，这样更加接近人工智能的未来。

[展开全文]

湫湫与柚柚 · 2019-03-27 · 第一讲：课程介绍和概览 0

Deep Reinforcement Learning

主要讲述了该课程的学习环境

强化学习的背景和应用范式

[展开全文]

基斯•布罗德 · 2019-03-25 · 第一讲：课程介绍和概览 0

目标：训练一个智能体去有效的完成任务，而不是训练神经网络。其中神经网络只是得到结果的一种方式。

定义计算图，训练，计算梯度，反向传播更新。

TF中实现了优化器可自动求导与反向传播。

[展开全文]

努力努力再努力 · 2019-03-23 · 第三讲：TensorFlow 和神经网络简述 0

深度强化学习中deep用来识别环境中的各种复杂信号，reinforcement用来做出复杂的决策。要做的简而言之不是教会智能体如何面对特定情境如何做而是怎么学。

[展开全文]

努力努力再努力 · 2019-03-23 · 第一讲：课程介绍和概览 0

CS294学习笔记

1 深度学习的特点：处理非结构化的信息。

2 强化学习的特点：强化学习是用来做决策的数学框架。

3 深度强化学习：结合深度学习和强化学习的特点，在强化学习的框架中使用深度学习这个强大工具，为机器人赋予在复杂真实世界中自动决策的能力。

[展开全文]

rango · 2019-03-17 · 第一讲：课程介绍和概览 1

可以结合着David Silver的课程看效果更好，研究生课程所以基础理论部分不会很详细，总体还是很棒滴，翻译好评

[展开全文]

路德•哈灵顿 · 2019-03-13 · 第一讲：课程介绍和概览 0

1. 感知和决策；

2. TD gammon;

3. 增强学习和深度网络；

4. 特征：HOG, CO-HOG,LBP,SHIFT;

features + svm实现分类；

5.决策：高级抽象

[展开全文]

杰理•纽曼 · 2019-03-03 · 第一讲：课程介绍和概览 0

1 DAgger

1. So far the problems mentioned in the video, besides

1) it is expensive for human to label the data generated by policy

2) it is sometimes impossible for human to be able to give a correct label only by watching a snapshot ( Marcov process is actually a simplified case)

one more problem , in my opinion, is still the exploration and exploitation dilemma. Suppose the algorithm has beed well trained with data , say, from forest, it is hard to work well if the drone fiies to ,say, hill.

2. Non-Markovian Behavior

The reason RL perfers to Markov process may come from the truth that it is easy to calculate and cheap to implement with reasonable memory. You don't have to know much about what had happened previously before you make a dynamic decision.

But human is good at making decision with the help of the accumulated experiences. As a remedy, it is a common way to think multiple snapshots as the current state to input to the network , or to take advantage of RNN to produce the input

[展开全文]

爱德华•安 · 2019-02-28 · 第二讲：监督学习和模仿学习 0