【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

这一节开始讲强化学习。

主要可以分为三步：

1。 generate smaples 这一步产生数据, 比如开车获得摄像头等传感器数据

2。fit a model/estimate the return 模型的匹配, 回归等

3。improve the policy 改善策略, 优化模型

通过这三步的循环, 可以使策略越来越优化。剩余课程将会深化这些方法,但是基本的步骤还是在于这三步。不同方法中的差异主要在于侧重点不同, 有些方法追求训练效率, 有的方法只能提供数量较少的数据, 有的方法注重实时性等。

[展开全文]

庄生 · 2019-08-01 · 第四讲：强化学习简介 0

强化学习是机器器学习领域之⼀一，受到⾏行行为⼼心理理学的启发，主要关注智能体如何在环境中采取不不同的⾏行行动，以最⼤大限度地提⾼高累积奖励。智能体通过强化学习，可以知道⾃自⼰己在什什么状态下，应该采取什什么样的动作使得⾃自身获得最⼤大奖励。由于智能体与环境的交互⽅方式与⼈人类与环境的交互⽅方式类似，可以认为强化学习是⼀一套通⽤用的学习框架，可⽤用来解决通⽤用⼈人⼯工智能的问题。因此强化学习也被称为通⽤用⼈人⼯工智能的机器器学习⽅方法。

[展开全文]

昆尼尔•迪基 · 2019-07-17 · 第四讲：强化学习简介 0

介绍一个blog，https://zhuanlan.zhihu.com/p/32598322，看完视频课程在看这个专栏其实收获还是很大的。

[展开全文]

聖書 · 2019-05-26 · 第四讲：强化学习简介 0

通过代理做动作与环境进行互动获取反馈并按价值函数或惩罚函数来对策略进行优化。

在策略优化过程中存在搜索广度与获取最大价值之间的矛盾，需要针对不同场景进行相应的权衡

[展开全文]

mefly · 2019-04-27 · 第四讲：强化学习简介 0