深度理解强化学习_学习笔记-AI研习社

强化学习第一讲

1.传统机器学习——有监督学习——回归任务、分类任务

无监督学习——无标签——K-means——超像素分割Superpixel，根据色差像素等差异性进行分类

2. 传统机器学习不能做什么？

实现机器人的特殊舞步

AlaphaGo

3.强化学习

一般性的框架学习序列决策任务

decision making tasks

4.强化学习还能做什么？

管理、控制

集群的资源管理

智慧城市——交通灯的控制

化学反应的优化——优化配比、催化剂等要素

个性化推荐

[展开全文]

PoleToWinF1 · 2019-06-10 · 强化学习初步介绍 1

基于序列决策过程基础上

马尔克夫决策过程

1.强化学习模型构建

具体优化什么变量？

state 参数更新时和环境交互

环境给Agent一个观察，智能体给一个动作，环境给一个reward 再下一个观察...

数学化

environment将state s0传递给agent，然后action A0，reward R1

即S0 A0 R1 S1 A1...对这些序列即Episode 学习

每一次的过程称为Episode

Si Ai相当于数据；奖赏值相当于label

目标最大化期望累积奖赏

无法直接优化Rt！

如果只优化一步的Rt，若只考虑一步的Rt，对于总体可能不是最好的，就像贪心算法那样不一定是最好的，随机性太大。

马尔克夫决策过程 MDP

对于某种问题，建立马尔可夫决策过程，然后解该模型。最后通过改模型的参数最大化期望累计奖赏来的得到最优解。

最大化期望累积奖赏： R1+R2+...+Rt+Rt+1+...

Gt=Rt+1+Rt+2...+

只考虑未来时刻和当前时刻的奖赏

但是未来时刻的reward 对当前return影响是不一样的

γ=0就是贪心算法

γ=1就是每一时刻奖赏对当前是一样的

[展开全文]

PoleToWinF1 · 2019-06-08 · 强化学习模型构建 1

一、什么是强化学习？

强化学习任务通常使用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数。————周志华《机器学习》

agent（智能体）在进行某个任务时，首先与environment进行交互，产生新的状态state，同时环境给出奖励reward，如此循环下去，agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互，产生新的数据，再利用新的数据去修改自身的动作策略，经过数次迭代后，agent就会学习到完成任务所需要的动作策略。

无特定数据，只有奖励信号
奖励信号不一定实时
主要研究时间序列的数据，而不是独立同分布的数据
当前行为影响后续数据

二、强化学习的要素

强化学习关键要素：agent（智能体），reward（奖励），action（行为），state（状态），environment（环境）。

agent：主要涉及到：策略（Policy），价值函数（Value Function）和模型（Model）。Policy，可以理解为行动指南，让agent执行什么动作，在数学上可以理解为从状态state到动作action的映射，可分为确定性策略（Deterministic policy）和随机性策略（Stochastic policy），前者是指在某特定状态下执行某个特定动作，后者是根据概率来执行某个动作。Value Function，对未来总Reward的一个预测。Model，一个对环境的认知框架，可以预测采取动作后的下一个状态是什么，很多情况下是没有模型的，agent只能通过与环境互动来提升策略。
state：可以细分为三种，Environment State，Agent State和Information State。Environment State是agent所处环境包含的信息，简单理解就是很多特征数据，也包含了无用的数据。Agent State是输入给agent的信息，也就是特征数据。Information State是一个概念，即当前状态包含了对未来预测所需要的有用信息，过去信息对未来预测不重要，该状态就满足马尔科夫性（Markov Property）。Environment State，Agent State都可以是Markov Property。
environment：可以分为完全可观测环境（Fully Observable Environment）和部分可观测环境（Partially Observable Environment）。Fully Observable Environment就是agent了解了整个环境，显然是一个理想情况。Partially Observable Environment是agent了解部分环境的情况，剩下的需要靠agent去探索。
强化学习算法按照agent分类，可以分为下面几类：

关注最优策略（Policy based）
关注最优奖励总和（Value based）
关注每一步的最优行动（Action based）

[展开全文]

IceRain · 2019-06-14 · 强化学习初步介绍 1

强化学习基本要素和概念：

没有监督，只有reward
反馈是有时延的
通过不断地试错使得行为获取高分，最后学到的高分行为就是学习到的策略。
Rt表示第t个time step的返回奖赏值，是一个标量scalar
Action来自于动作空间A，
State指当前agent所处的状态
Agent执行动作的智能体
Environment，将agent当前状态和操作作为输入，并将代理的奖励和下一个状态作为输出返回
Policy，状态映射到行为的函数，即承诺最高回报的行为
Value长期的平均的总奖赏，相对于短期的reward
Model，训练好的agent

[展开全文]

丹尼丝•哈罗 · 2019-06-18 · 强化学习基本要素和概念 1

建模成马尔可夫决策过程，动态规划方法，一般或者最优策略，对状态转移概率清楚，遍历并选择策略，评价策略好坏，更新策略

现实中无法知道环境，不知道状态，不知道概率，对于这类序列决策问题

蒙特卡洛学习 Monte-Carlo Prediction

目标：Agent Environment

寻找最优策略使得期望Q（S，W）最大化

动态规划知道所有环境，我们需要知道环境的一个近似，MC方法从episodes开始学习，model free是生活中大多数的模型，RL分为基于值函数的学习，或者基于策略的学习。

MC complete episodes no bootstrapping

MCuses simplest possible idea value= mean return

Caveat can only apply MC to episodic MDPs

terminate

蒙特卡洛学习全球十大算法排名第二，对多次环境的采样对环境进行模拟。

Monte-Carlo Prediction: 评价当前策略好坏，一般思想：对于任意给定策略π，agent 执行action，估计相应的状态值。我们需要通过执行episode 中出现状态s的数目N(s),多次reward 值得平均值来计算相应的动作值或者状态值。计算有两种方式：第一次预见蒙特卡洛策略的评价，和每次预见蒙特卡洛的评价。

First Visit

做实验假如每次以1/4概率选取四个选择之一，得到很多状态s，first只取预见第一个s时的at, value is estimated by mean return 趋近于标准期望。

相对于动态规划是绝对贪婪策略，找到最大的return 先用策略得到Q表然后找到最佳策略，再去更新Q table 再更新策略。

考虑策略的方法是绝对贪婪的

[展开全文]

PoleToWinF1 · 2019-06-28 · 蒙特卡洛学习(Monte-Carlo Prediction) 1

绝对贪婪策略的不足:

reward改变的情况下，过去积累的reward印象策略，给策略选择一个微小的随机性，

Epsilon Greedy Policy 给策略选择一个微小的随机性，使agent 更可能选择时使Q最大

Control

目的获得最优策略

On-policy learning:策略评估和改善是同步进行的，求得目标最优Q值，然后选取某一个策略，蒙特卡洛基于两步走。一套episode 系统同时探索和策略改进

Off-policy learning 两套系统策略评估和改善不直接用于产生agent的policy 一个探索学习并成为optimal policy 另一个用来逼近上述策略。

On-policy learning 通过探索和利用Exploitation 交替迭代完成

先策略评估 e-greedy(Q)更新策略，e如何选取？

e如何选取？在agent与环境刚开始交互时，agent对环境知之甚少，这时需要大量探索；为了尽可能更多了解环境，agent动作选取需要多样化（随机选取）。2 后面的迭代 agent对环境了解足够多，后面需要选择greedy policy

e选取只要满足条件状态度量空间是无线的策略收敛到argmaxQk agent就是一定达到最优策略。e=1/i

算法步骤

1）初始化变量

2）通过Epsilon-greedy获得起始策略

3）进行策略评估

4）进行策略迭代

5）不断重复上述步骤直到达到收敛

Incremental Mean 增量均值

采样之后相加求均值，写成计算机语言需要遍历每一个episode，每一次的变化迭代，μk=μk-1 + 1/k (xk-μk-1)

满足GLIE Monte-Carlo Control算法每次生成新的策略再不断迭代直到生成收敛的结果。

2个policy 一个是target policy 一个是behavior policy 前者学习成为optimal policy 后者用于探索Exploration。

因此学习过程变化为behavior policy 不断更新参数，target policy 去逼近前者分布

[展开全文]

PoleToWinF1 · 2019-06-28 · Monte-Carlo Control 1

强化学习解法

1）MDP模型求解，动态规划

2）蒙特卡罗学习采样根据Q值学习

3）持续差分算法TD算法

内容：

1）时序差分学习（Temporal-Difference Learning）

2）Sarsa算法

3）总结

学过的RL解法

DP：model-based 学习方式需要知道状态转移矩阵；直接计算所有状态动作pair 的Q值或者V值表，然后通过贪心策略获得agent 的策略

Monte-Carlo：model-free学习方式不需要知道MDP和环境信息；基于episode 进行学习，agent 先通过既定的policy 与环境进行交互；每次根据episode 的return 更新Q表，知道最后收敛

TD learning:

直接从经验上学习，和MC类似

model-free no MDP transitions

针对incomplete episodes by bootstrapping

update a guess towards a guess

目标学习到一个最优策略

蒙特卡洛需要一整个return Gt

TD 中 Gt变为持续差分目标 Rt+1 + γV(St+1)

TD学习和MC 比较：不需要等采样完全结束再计算return TD target=当前时刻瞬时reward，上一时刻动作状态对的Q，在增量均值处进行增量截取，

方差比较：Gt是 Vπ(St)无偏估计

return有很多随机性，方差越大，MC和TD优缺点 MC是无偏估计高方差非常好收敛近似少迭代快简单理解

TD 方差稳定收敛整体，对初始选值敏感，

λlearning 每多一步增加一步的reward

TD模型是蒙特卡洛模型的近似和简化

TD(λ) λ=n 就把 TD target换成n步return的表达式

[展开全文]

PoleToWinF1 · 2019-06-29 · 时序差分学习(Temporal-Difference Learning) 1

笔记：深度理解强化学习

主讲：王湛

第一课：强化学习初步介绍

这节课程有两部分：

一、课程简介

二、通过实际例子介绍传统机器学习（有监督和无监督）能做什么以及不能做什么，强化学习能做什么。

一、课程简介

1、强化学习能做什么？

经典的例子，如围棋（AlphaGo）、机器人（Boston robot）、游戏（DOTA）等。

2、预备知识

概率论、矩阵分析、优化理论

Python基础

机器学习、深度学习（选学）

强化学习是ML的一种，所以即使没有学过其他的知识也可以学习这个课程。

3、能够学到什么？

RL基本算法原理和数学推导
实战设计RL算法训练agent
阅读文献自学最新的RL算法的能力

二、强化学习能做什么：

1、传统机器学习能做什么？

有监督学习：回归任务、分类任务

无监督学习（没有标签）：K-means聚类（应用：超像素分割）

2、传统机器学习不能做什么？

机器人、围棋。

无监督学习由于智能对现有数据做一定意义的聚类，显然不适用于这些任务。

监督学习由于需要大量的人工标签来构建相当庞大的训练集，成本太高并不适用。

3、强化学习能做什么

"If one of the goals that we work for here is Al then it is at the core of that. Reinforcement Learning is a very general framework for learning sequential decision making tasks. And Deep Learning, on the other hand, is of course the best set of algorithms we have to learn representations. And combinations of these two different models is the best answer so far we have in terms of learning very good state representations of very challenging tasks that ore not just for solving toy domains but actually to solve challenging real world problems." 

--David Sliver

简单来说，即强化学习是一个学习序列决策过程的一般框架。

一个大胆的假设：任何问题如果能够简化成一个决策问题，就可以用强化学习来解答。（这种思想非常重要）

应用案例1：围棋、吃豆子游戏。

应用案例2：强化学习还可以完成管理和控制的任务。例如计算机集群的资源管理、交通灯控制，实现资源实时、动态的分配和利用。

应用案例3：机器人动作。

应用案例4：化学反应的优化。配比、催化剂、温度等。研发新的有机物。

应用案例5：淘宝通过用户基本信息、购买记录等的个性化推荐。

4、结论

强化学习非常广，除了学好强化学习算法，更重要的是学会强化学习的思考方式，能够在日常问题的解决中合理利用。

强化学习的一般框架：

下一节：强化学习的基本要素和概念

[展开全文]

卡莫•莱昂 · 2019-05-05 · 强化学习初步介绍 1

笔记：深度理解强化学习

主讲：王湛

第二课：强化学习基本要素和概念

这节课程介绍了强化学习基本的框架和概念，这是后续课程的必备基础。

一、模型基本要素

机器学习可以分为三个大的分支：

有监督学习
无监督学习
强化学习

强化学习的过程如婴儿学步，该如何抬脚、使多大力等，是一步一步试探出来的。

强化学习的过程如狗的训练，发出一个命令，根据执行结果进行奖励或惩罚。

there is no supervisor, only a reward signal
feedback is delayed, not instantaneous.
time really matters (sequential)
agent's actions affect the subsecuent data it receives.

计算机想要通过强化学习做决策，需要一个老师，但老师只给你打分，而不告诉你该怎么做，计算机通过不停地试错过程来使行为能够获取高分。最后学到的高分的行为就是我们最后学习到的策略。

在每一个时间 t

agent：收到一个观察Ot，收到一个reward Rt，执行动作At

环境：收到action At，估算出观测 Ot+1和 reward Rt+1

t 不断增加，A不断得到改进。

二、基本概念

包括：reward、action、state、agent、environment、policy、value、model。

执行action要达到最大化期望reward，直到算法最终收敛，学到的策略就是一系列 action 的序列数据。

state：指当前agent所处的状态。

agent 就是要学习动作的对象。

环境就是agent所处的且能够给出奖惩的世界。

（如果将env换成agent，则形成了双agent博弈的模型）

区分不同语境下的reward，一种是每个时间t的reward，另一个是长期平均的reward。前者用于刺激下次动作的改变，后者用于评估动作训练的结果。

下一节：课程要求

[展开全文]

卡莫•莱昂 · 2019-05-06 · 强化学习基本要素和概念 1

第二章马尔科夫决策过程（1）

主讲人：王湛

课时4 ：强化学习模型构建

序列的决策过程往往能够建模成马尔科夫决策过程。反之，如果一个问题能够用马尔科夫过程建模，那么就可以用ML解决了。

1、建模

首先建模出agent和environment，环境对agent有一个观察1，agent对环境有一个动作1，此时环境会给agent反馈一个reward1，并给出一个观察2。这是一个不断的交互过程。

2、如何抽象成数学模型？

初始化——

observation：state(S0)，S0是环境的基准状态。

action：A0，时间t=0时，agent的动作

执行——

执行A0后，

S0——>S1，R1；

A0——>A1

如此反复。

S0 A0 R1 S1 A1 R2 S2 A2 ......(称这个序列为Episode)

3、什么时候终止呢？

与监督学习做类比：（S, A）相当于训练数据，R 相当于标签。

Goal of the agent：最大化期望累积奖赏。

这里不能用单步的Rt进行优化，因为随机性太大。

对于这样的问题，可以用不同的方法来解，强化学习是其中较好的一种方法。

什么是“最大化期望累积奖赏”呢？

应该考虑过去、现在和未来所有的奖赏：

因此，真正需要最大化的应该是：

（一般的），在t时刻，agent的目标是执行动作At，并且使Gt最大化。

实际上Gt的定义并不是固定的，要考虑到不同时刻的reward 权重是不一样的，因此可以有类似这样的定义：

[毕]

课时5：马尔科夫奖赏过程（MRP）

课时6：马尔科夫决策过程

[展开全文]

卡莫•莱昂 · 2019-05-06 · 强化学习模型构建 1

深度理解强化学习

一、课程简介

二、强化学习能做什么：

一、模型基本要素

二、基本概念

授课教师

最新学员

学员动态