深度理解强化学习_学习笔记-AI研习社

1.策略为状态到动作的映射。

2.策略为状态到动作的映射过程中，动作具有不确定性。

3.动态规划的概念为：动态为序列或者时序问题，规划为最优规划。

4.动态规划它是一种算法，用来解答固定问题，满足以下条件：

a）有最优子结构（最优解能分解为好多子问题的解）

b）拥有重叠的子问题（子问题能重复多次且有解）

5.值迭代是针对一个MDP问题对每一个时刻所在的状态进行值函数的估计，直到达到最优值的过程。

6.任何状态的值函数等于即时奖励加下一状态的值函数大小*折扣因子。

7.在当前策略下，一般的任何一个状态的状态值都等于下一时刻的瞬时奖励值与未来折扣之后的状态值的期望值。

8.π》=π’当且仅当某策略的值函数大于该策略的值函数。

9.一个最优策略一定存在，但不唯一。

[展开全文]

妮娜•伏恩 · 2019-08-06 · 动态规划（DP）-值函数 0

1.马尔科夫奖赏过程的表示量有：

a）S状态集

b）P状态转移概率矩阵

c）R奖赏函数

d）y折扣系数

2.下一时刻的状态至于上一时刻的状态有关

3.终止状态只进不出

4.瞬时奖励是评价当前动作的好坏，值函数是评价当前状态的好坏

5.贝尔曼方程建立在状态矩阵已知的条件下求解值函数大小。

6.状态值函数是指agent在状态st根据策略π采取后续动作所得到的累积回报的期望。

7.状态行为函数是指agent从状态s出发，按照策略π采取行动得到的累积回报的期望

8.某个状态的值函数等于该状态下所有状态行为值函数的加权和。

9.状态行为函数等于该状态、该行为执行后的即时奖励的期望，加上他所导致的所有下一步状态的折减后状态值函数的加权和。

10.贝尔曼方程其实是自身以及相互之间的递推关系。

[展开全文]

妮娜•伏恩 · 2019-08-06 · 马尔科夫奖赏过程 0

1.强化学习其运行过程：S0———》A0——》S1、R1——》A1..........

2.强化学习过程可以近似看作一个有监督学习的过程。

3.强化学习的过程不能将其看作为优化每一步的最大奖励值。

4.一般，在t时刻，agent的目标时执行动作At并且是Gt最大化。

5.影响因子y=1时代表当前动作对后续影响的效果是一样的，y=0时代表贪心算法，只对当前动作进行评分。

6.在允许策略集合中找出使问题具有优化效果的策略，称为最优策略。

7.可以将一个MDP模型恢复为MP和MRP。

8.策略具有随机性，状态转移同样具有随机性。

9.Rt+1可以认为为进入St+1后立刻得到了Rt+1.

10.正是由于Pss'a的存在，才使得R是一个期望值。

11.强化学习往往具有延迟回报的特点，如果第n步输掉了棋，那么只有状态sn和动作an获得了即时奖励，前面的所有状态立即奖励均为0。

12，之前的任意状态s和动作a，即时奖励函数无法说明策略的好坏。

13.对于当前动作的影响，需要定义值函数来表明当前状态下策略的长期影响。

[展开全文]

妮娜•伏恩 · 2019-08-06 · 强化学习模型构建 0

1.马尔科夫决策过程与强化学习的关系：能构造MDP就可以用强化学习。

2.模型预测：针对值

3.模型控制：获得最优策略

4.Pss'a的含义为当前agent所处的状态s下，经过动作a后状态转移至s'的概率大小。

5.Pss'a转移至s’也是存在一定随机性的。

6.只考虑下一步动作带来的影响，而不考虑之后一些列动作带来的影响，虽然简单，很多情况下就是最优解。

7.策略为在每个可能的状态，agent应该采取的动作概率的分布。

8.策略是强化学习的核心部分，策略的好坏最终决定了agent的行动和整体性能。

9.策略可以是随机的，也可以是确定的。

10.一个策略函数定义为π：S>A，即输入为状态S，输出为 A

11.策略的实质为，告诉agent状态S下该执行的动作。

12.策略可分为确定策略和不确定策略。

[展开全文]

妮娜•伏恩 · 2019-08-06 · 课程要求 0

1.传统机器学习相比于强化学习而言，无监督学习由于只能对现有的数据做一定意义的聚类，监督学习需要大量的人工标签构建训练集，因此有一定的局限性。

2.强化学习适用于序列决策的任务。

3.任何一个问题能简化为一个决策问题，都能通过强化学习解决。

4.计算机集群的资源管理、控制也可适用于强化学习。

5.强化学习是智能体‘’agent‘’以试错的方式进行学习，通过与环境进行交互获得的奖励指导行为，目标是使智能体获得最大的奖励。

6.所谓强化学习，是指从环境状态到行为映射的学习，以使系统行为从环境中获得的积累reward（奖励值）最大。

7.在强化学习中，算法来把外界环境转化为最大化奖励量的方式的动作，算法并没有直接告诉agent要做什么或者要采取哪个动作，而是agent通过看哪个动作得到了最多的奖励来自己发现。

8.agent的动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励。

9.强化学习与其他机器学习不同之处为：

没有label，只有reward；反馈有延时，不是能立即返回；数据是序列化的，数据与数据之间是有关的，二不是相互独立的；agent执行的动作会影响之后的数据。

10.强化学习的关键要素有：environment、reward、action、state。有了这些要素才能建立一个强化学习模型。

11.强化学习解决的问题是：针对一个具体问题得到一个优化的policy，使得在该策略下获得的return最大。

12.所谓的policy其实就是一系列action，也就是连续数据。

[展开全文]

妮娜•伏恩 · 2019-08-05 · 强化学习初步介绍 0

1.奖励Rt是个标量

2.action是来自动作空间，agent对每次所处的state用以及上一状态的reward确定当前要执行什么action。执行action要达到最大化期望reward，直到最终算法收敛，所得的policy就是一系列action的连续数据。

3.输入量为当前的状态和操作；输出量为下一时刻的状态和奖励。

4.state:智能体所处环境的状态

action:智能体所执行的动作

reward:环境对智能体的评价

environment:智能体所处的环境

agent:本体，算法

5.agent与环境的交互接口包括action、reward和state。

6.每一步agent根据policy选择一个行动执行，然后感知下一步状态和及时回报，通过经验再修改自己的策略。

7.agent的目标就是最大化长期回报，仅考虑即时奖励是显然不够的。

8.return和reward的区别在于：回报是奖励的积累。

9.policy是指agent在特定状态下的行为依据，是从state到action的映射。分为确定策略和随机策略。

10.

[展开全文]

妮娜•伏恩 · 2019-08-05 · 强化学习基本要素和概念 0

基于概率和基于价值

基于概率是强化学习中最直接的一种, 他能通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动, 所以每种动作都有可能被选中, 只是可能性不同. 而基于价值的方法输出则是所有动作的价值, 我们会根据最高价值来选着动作, 相比基于概率的方法, 基于价值的决策部分更为铁定, 毫不留情, 就选价值最高的, 而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到他.

我们现在说的动作都是一个一个不连续的动作, 而对于选取连续的动作, 基于价值的方法是无能为力的. 我们却能用一个概率分布在连续动作中选取特定动作, 这也是基于概率的方法的优点之一. 那么这两类使用的方法又有哪些呢?

比如在基于概率这边, 有 Policy Gradients, 在基于价值这边有 Q learning, Sarsa 等. 而且我们还能结合这两类方法的优势之处, 创造更牛逼的一种方法, 叫做 Actor-Critic, actor 会基于概率做出动作, 而 critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程.

[展开全文]

维娜•普赖斯 · 2019-07-17 · 强化学习基本要素和概念 0

马尔可夫决策过程（MDP）

一：介绍

马尔可夫决策过程是用来形式化地描述强化学习中的环境

其中环境是完全可以观测的

值得注意的是，大部分强化学习问题都可以看作 MDP 问题。

简单地理解，MDP是用来描述环境的，且 agent 可以观察到环境的全部信息。也就是说是完全可以观测。所以 agent的状态会等于环境的状态，因此在MDP中会出现action这个概念。

二：马尔可夫性质

现在或未来的状态依赖于过于的状态

它可以被定义为：

如果一个状态St S_tS

t

是马尔可夫链中的一个状态，当且仅当：

P[St+1∣St]=P[St+1∣S1,S2,...,St] P[S_{t+1}|S_t] = P[S_{t+1}|S_1, S_2, ..., S_t]

P[S

t+1

∣S

t

]=P[S

t+1

∣S

1

,S

2

,...,S

t

]

当前状态能捕捉到过去状态的所有信息

一旦当前状态被确认，那么历史信息就可以被扔掉

状态转移矩阵

对于一个马尔可夫状态 s ss和它的后继状态S′ S^\primeS

′

, 状态转移概率可以定义为：

Pss′=P[St+1∣St=s] P_{s s^\prime} = P[S_{t+1}|S_t=s]

P

ss

′

=P[S

t+1

∣S

t

=s]

故转移概率矩阵 P PP 可以定义为：

P=⎡⎣⎢p11...pn1.........p1n...pnn⎤⎦⎥ P =\begin{bmatrix} p_{11} & ... & p_{1n} \\ ... & ... & ... \\ p_{n1} & ... & p_{nn} \end{bmatrix}\quad

P=

⎣

⎡

p

11

...

p

n1

...

p

1n

...

p

nn

⎦

⎤

三：马尔可夫链

马尔可夫过程是一个无记忆性的随机过程，也就是说马尔可夫过程就是一串随机的状态序列 S1,S2,... S_1, S_2, ...S

1

,S

2

,.... 为什么是无记忆性的呢？因为

Pss′=P(St+1=s∣St=s) P_{ss^\prime}=P(S_{t+1}=s | S_t=s)

P

ss

′

=P(S

t+1

=s∣S

t

=s)

即下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关

[展开全文]

维娜•普赖斯 · 2019-07-16 · 课程要求 0

马尔科夫决策过程正式描述了强化学习的环境,此环境是可以全部观察的.
几乎所有的强化学习问题都可以提炼成一个MDP问题。

1、马尔可夫性
定义：状态St 是马尔科夫的，当且仅当满足

2、状态转移概率
矩阵形式

3、马尔科夫链（Markov chain）
马尔科夫链是一个无记忆的随机过程，即随机过程中的状态序列具有马尔可夫性。
定义：马尔科夫链表示为<S, P>，其中 S 是状态集，P是状态转移概率矩阵。

4、奖赏过程
定义：<S, P, R, r>，其中S是状态集，P是状态转移概率矩阵，R是奖赏函数，r是折扣系数。
值函数（valuefunction）：值函数是未来奖赏值的预测，可以用来评估当前状态的好坏，agent可以根据此来选择要执行的动作。

5、贝尔曼方程
MRP矩阵形式：v = R + r P v，其中v是一个列向量

[展开全文]

维娜•普赖斯 · 2019-07-16 · 马尔科夫奖赏过程 0

强化学习的特点：

没有监督数据、只有奖励信号
奖励信号不一定是实时的，而很可能是延后的，有时甚至延后很多。
时间（序列）是一个重要因素
当前的行为影响后续接收到的数据

[展开全文]

维娜•普赖斯 · 2019-07-15 · 强化学习初步介绍 0

深度理解强化学习

授课教师

最新学员

学员动态