深度理解强化学习_学习笔记-AI研习社

基于序列决策过程基础上

马尔克夫决策过程

1.强化学习模型构建

具体优化什么变量？

state 参数更新时和环境交互

环境给Agent一个观察，智能体给一个动作，环境给一个reward 再下一个观察...

数学化

environment将state s0传递给agent，然后action A0，reward R1

即S0 A0 R1 S1 A1...对这些序列即Episode 学习

每一次的过程称为Episode

Si Ai相当于数据；奖赏值相当于label

目标最大化期望累积奖赏

无法直接优化Rt！

如果只优化一步的Rt，若只考虑一步的Rt，对于总体可能不是最好的，就像贪心算法那样不一定是最好的，随机性太大。

马尔克夫决策过程 MDP

对于某种问题，建立马尔可夫决策过程，然后解该模型。最后通过改模型的参数最大化期望累计奖赏来的得到最优解。

最大化期望累积奖赏： R1+R2+...+Rt+Rt+1+...

Gt=Rt+1+Rt+2...+

只考虑未来时刻和当前时刻的奖赏

但是未来时刻的reward 对当前return影响是不一样的

γ=0就是贪心算法

γ=1就是每一时刻奖赏对当前是一样的

[展开全文]

PoleToWinF1 · 2019-06-08 · 强化学习模型构建 1

第二章马尔科夫决策过程（1）

主讲人：王湛

课时4 ：强化学习模型构建

序列的决策过程往往能够建模成马尔科夫决策过程。反之，如果一个问题能够用马尔科夫过程建模，那么就可以用ML解决了。

1、建模

首先建模出agent和environment，环境对agent有一个观察1，agent对环境有一个动作1，此时环境会给agent反馈一个reward1，并给出一个观察2。这是一个不断的交互过程。

2、如何抽象成数学模型？

初始化——

observation：state(S0)，S0是环境的基准状态。

action：A0，时间t=0时，agent的动作

执行——

执行A0后，

S0——>S1，R1；

A0——>A1

如此反复。

S0 A0 R1 S1 A1 R2 S2 A2 ......(称这个序列为Episode)

3、什么时候终止呢？

与监督学习做类比：（S, A）相当于训练数据，R 相当于标签。

Goal of the agent：最大化期望累积奖赏。

这里不能用单步的Rt进行优化，因为随机性太大。

对于这样的问题，可以用不同的方法来解，强化学习是其中较好的一种方法。

什么是“最大化期望累积奖赏”呢？

应该考虑过去、现在和未来所有的奖赏：

因此，真正需要最大化的应该是：

（一般的），在t时刻，agent的目标是执行动作At，并且使Gt最大化。

实际上Gt的定义并不是固定的，要考虑到不同时刻的reward 权重是不一样的，因此可以有类似这样的定义：

[毕]

课时5：马尔科夫奖赏过程（MRP）

课时6：马尔科夫决策过程

[展开全文]

卡莫•莱昂 · 2019-05-06 · 强化学习模型构建 1

1.强化学习其运行过程：S0———》A0——》S1、R1——》A1..........

2.强化学习过程可以近似看作一个有监督学习的过程。

3.强化学习的过程不能将其看作为优化每一步的最大奖励值。

4.一般，在t时刻，agent的目标时执行动作At并且是Gt最大化。

5.影响因子y=1时代表当前动作对后续影响的效果是一样的，y=0时代表贪心算法，只对当前动作进行评分。

6.在允许策略集合中找出使问题具有优化效果的策略，称为最优策略。

7.可以将一个MDP模型恢复为MP和MRP。

8.策略具有随机性，状态转移同样具有随机性。

9.Rt+1可以认为为进入St+1后立刻得到了Rt+1.

10.正是由于Pss'a的存在，才使得R是一个期望值。

11.强化学习往往具有延迟回报的特点，如果第n步输掉了棋，那么只有状态sn和动作an获得了即时奖励，前面的所有状态立即奖励均为0。

12，之前的任意状态s和动作a，即时奖励函数无法说明策略的好坏。

13.对于当前动作的影响，需要定义值函数来表明当前状态下策略的长期影响。

[展开全文]

妮娜•伏恩 · 2019-08-06 · 强化学习模型构建 0

深度理解强化学习

授课教师

最新学员

学员动态