深度理解强化学习_学习笔记-AI研习社

1.传统机器学习相比于强化学习而言，无监督学习由于只能对现有的数据做一定意义的聚类，监督学习需要大量的人工标签构建训练集，因此有一定的局限性。

2.强化学习适用于序列决策的任务。

3.任何一个问题能简化为一个决策问题，都能通过强化学习解决。

4.计算机集群的资源管理、控制也可适用于强化学习。

5.强化学习是智能体‘’agent‘’以试错的方式进行学习，通过与环境进行交互获得的奖励指导行为，目标是使智能体获得最大的奖励。

6.所谓强化学习，是指从环境状态到行为映射的学习，以使系统行为从环境中获得的积累reward（奖励值）最大。

7.在强化学习中，算法来把外界环境转化为最大化奖励量的方式的动作，算法并没有直接告诉agent要做什么或者要采取哪个动作，而是agent通过看哪个动作得到了最多的奖励来自己发现。

8.agent的动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励。

9.强化学习与其他机器学习不同之处为：

没有label，只有reward；反馈有延时，不是能立即返回；数据是序列化的，数据与数据之间是有关的，二不是相互独立的；agent执行的动作会影响之后的数据。

10.强化学习的关键要素有：environment、reward、action、state。有了这些要素才能建立一个强化学习模型。

11.强化学习解决的问题是：针对一个具体问题得到一个优化的policy，使得在该策略下获得的return最大。

12.所谓的policy其实就是一系列action，也就是连续数据。

[展开全文]

妮娜•伏恩 · 2019-08-05 · 强化学习初步介绍 0

强化学习的特点：

没有监督数据、只有奖励信号
奖励信号不一定是实时的，而很可能是延后的，有时甚至延后很多。
时间（序列）是一个重要因素
当前的行为影响后续接收到的数据

[展开全文]

维娜•普赖斯 · 2019-07-15 · 强化学习初步介绍 0

一、什么是强化学习？

强化学习任务通常使用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数。————周志华《机器学习》

agent（智能体）在进行某个任务时，首先与environment进行交互，产生新的状态state，同时环境给出奖励reward，如此循环下去，agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互，产生新的数据，再利用新的数据去修改自身的动作策略，经过数次迭代后，agent就会学习到完成任务所需要的动作策略。

无特定数据，只有奖励信号
奖励信号不一定实时
主要研究时间序列的数据，而不是独立同分布的数据
当前行为影响后续数据

二、强化学习的要素

强化学习关键要素：agent（智能体），reward（奖励），action（行为），state（状态），environment（环境）。

agent：主要涉及到：策略（Policy），价值函数（Value Function）和模型（Model）。Policy，可以理解为行动指南，让agent执行什么动作，在数学上可以理解为从状态state到动作action的映射，可分为确定性策略（Deterministic policy）和随机性策略（Stochastic policy），前者是指在某特定状态下执行某个特定动作，后者是根据概率来执行某个动作。Value Function，对未来总Reward的一个预测。Model，一个对环境的认知框架，可以预测采取动作后的下一个状态是什么，很多情况下是没有模型的，agent只能通过与环境互动来提升策略。
state：可以细分为三种，Environment State，Agent State和Information State。Environment State是agent所处环境包含的信息，简单理解就是很多特征数据，也包含了无用的数据。Agent State是输入给agent的信息，也就是特征数据。Information State是一个概念，即当前状态包含了对未来预测所需要的有用信息，过去信息对未来预测不重要，该状态就满足马尔科夫性（Markov Property）。Environment State，Agent State都可以是Markov Property。
environment：可以分为完全可观测环境（Fully Observable Environment）和部分可观测环境（Partially Observable Environment）。Fully Observable Environment就是agent了解了整个环境，显然是一个理想情况。Partially Observable Environment是agent了解部分环境的情况，剩下的需要靠agent去探索。
强化学习算法按照agent分类，可以分为下面几类：

关注最优策略（Policy based）
关注最优奖励总和（Value based）
关注每一步的最优行动（Action based）

[展开全文]

IceRain · 2019-06-14 · 强化学习初步介绍 1

强化学习第一讲

1.传统机器学习——有监督学习——回归任务、分类任务

无监督学习——无标签——K-means——超像素分割Superpixel，根据色差像素等差异性进行分类

2. 传统机器学习不能做什么？

实现机器人的特殊舞步

AlaphaGo

3.强化学习

一般性的框架学习序列决策任务

decision making tasks

4.强化学习还能做什么？

管理、控制

集群的资源管理

智慧城市——交通灯的控制

化学反应的优化——优化配比、催化剂等要素

个性化推荐

[展开全文]

PoleToWinF1 · 2019-06-10 · 强化学习初步介绍 1

强化学习的关键要素主要有：环境（Environment）、激励（reward）、动作（action）和状态（state）。有了这些要素后，我们就可以建立一个强化学习模型。强化学习解决的问题是：针对一个具体问题得到一个最有的策略，使得在该策略下获得的激励最大。所谓的策略其实就是一系列的动作，也就是序列数据。

（策略是状态到动作的映射，分为确定策略与随机策略。确定策略就是某一状态下的确定动作，随机策略以概率来描述，即某一状态下执行某一动作的概率。）

强化学习可以用下图来刻画：都是要先从要完成的任务提取一个环境，从中抽象出状态、动作以及执行此动作所接受的瞬时激励。

强化学习与传统机器学习的不同之处

训练数据没有类标，只有激励信息，本质上来说，激励信息也可以看作是一种类标。
反馈可能有延时，无法立即返回
输入数据是序列数据。
智能体的动作会影响到后续的数据。

直观来看强化学习

一些棋类运动，Alpha-Go、Alpha-Zero等
波士顿机器人：一个综合智能体的机器人
训练智能体玩游戏

需要先修的内容

数学方面：概率、矩阵、优化
开发方面：Python基础
其他：机器学习与深度学习

强化学习的应用

强化学习可适用于序列决策的任务，比如波士顿机器人在前进中的控制，围棋博弈的过程等。一般来说，只要能将一个问题简化成一个决策问题，基本上可以使用强化学习来解决此问题。
在资源调度管理中，也可以使用强化学习算来进行动态分配。
在智慧城市中也有应用，比如交通灯的控制问题：使用强化学习，通过智能体，根据实际情况动态的改变交通灯时长的控制。
强化学习现在应用到了化学领域，比如：原料配比、催化剂的使用，温度的选择（是否需要加热等）。
淘宝个性化推荐也用了强化学习：建立一个agent，对其设定一些条件，比如年龄，爱好倾向等，然后通过强化学习进行推荐，并根据数据来对推荐结果进行反馈。

[展开全文]

流动的空气 · 2019-05-16 · 强化学习初步介绍 1

强化学习与其他机器学习不同之处为：

没有教师信号，也没有label。只有reward，其实reward就相当于label。
反馈有延时，不是能立即返回。
相当于输入数据是序列数据。
agent执行的动作会影响之后的数据。
强化学习的关键要素有：environment，reward，action 和 state。有了这些要素我们就能建立一个强化学习模型。强化学习解决的问题是，针对一个具体问题得到一个最优的policy，使得在该策略下获得的reward最大。所谓的policy其实就是一系列action。也就是sequential data。
强化学习可用下图来刻画，都是要先从要完成的任务提取一个环境，从中抽象出状态(state) 、动作(action)、以及执行该动作所接受的瞬时奖赏(reward)。

[展开全文]

宅总 · 2019-05-07 · 强化学习初步介绍 1

笔记：深度理解强化学习

主讲：王湛

第一课：强化学习初步介绍

这节课程有两部分：

一、课程简介

二、通过实际例子介绍传统机器学习（有监督和无监督）能做什么以及不能做什么，强化学习能做什么。

一、课程简介

1、强化学习能做什么？

经典的例子，如围棋（AlphaGo）、机器人（Boston robot）、游戏（DOTA）等。

2、预备知识

概率论、矩阵分析、优化理论

Python基础

机器学习、深度学习（选学）

强化学习是ML的一种，所以即使没有学过其他的知识也可以学习这个课程。

3、能够学到什么？

RL基本算法原理和数学推导
实战设计RL算法训练agent
阅读文献自学最新的RL算法的能力

二、强化学习能做什么：

1、传统机器学习能做什么？

有监督学习：回归任务、分类任务

无监督学习（没有标签）：K-means聚类（应用：超像素分割）

2、传统机器学习不能做什么？

机器人、围棋。

无监督学习由于智能对现有数据做一定意义的聚类，显然不适用于这些任务。

监督学习由于需要大量的人工标签来构建相当庞大的训练集，成本太高并不适用。

3、强化学习能做什么

"If one of the goals that we work for here is Al then it is at the core of that. Reinforcement Learning is a very general framework for learning sequential decision making tasks. And Deep Learning, on the other hand, is of course the best set of algorithms we have to learn representations. And combinations of these two different models is the best answer so far we have in terms of learning very good state representations of very challenging tasks that ore not just for solving toy domains but actually to solve challenging real world problems." 

--David Sliver

简单来说，即强化学习是一个学习序列决策过程的一般框架。

一个大胆的假设：任何问题如果能够简化成一个决策问题，就可以用强化学习来解答。（这种思想非常重要）

应用案例1：围棋、吃豆子游戏。

应用案例2：强化学习还可以完成管理和控制的任务。例如计算机集群的资源管理、交通灯控制，实现资源实时、动态的分配和利用。

应用案例3：机器人动作。

应用案例4：化学反应的优化。配比、催化剂、温度等。研发新的有机物。

应用案例5：淘宝通过用户基本信息、购买记录等的个性化推荐。

4、结论

强化学习非常广，除了学好强化学习算法，更重要的是学会强化学习的思考方式，能够在日常问题的解决中合理利用。

强化学习的一般框架：

下一节：强化学习的基本要素和概念

[展开全文]

卡莫•莱昂 · 2019-05-05 · 强化学习初步介绍 1

深度理解强化学习

一、课程简介

二、强化学习能做什么：

授课教师

最新学员

学员动态