首页 AI学术青年与开发者社区

1.强化学习其运行过程 :S0———》A0——》S1、R1——》A1..........

2.强化学习过程可以近似看作一个有监督学习的过程。

3.强化学习的过程不能将其看作为优化每一步的最大奖励值。

4.一般,在t时刻,agent的目标时执行动作At并且是Gt最大化。

5.影响因子y=1时代表当前动作对后续影响的效果是一样的,y=0时代表贪心算法,只对当前动作进行评分。

6.在允许策略集合中找出使问题具有优化效果的策略,称为最优策略。

7.可以将一个MDP模型恢复为MP和MRP。

8.策略具有随机性,状态转移同样具有随机性。

9.Rt+1可以认为为进入St+1后立刻得到了Rt+1.

10.正是由于Pss'a的存在,才使得R是一个期望值。

11.强化学习往往具有延迟回报的特点,如果第n步输掉了棋,那么只有状态sn和动作an获得了即时奖励,前面的所有状态立即奖励均为0。

12,之前的任意状态s和动作a,即时奖励函数无法说明策略的好坏。

13.对于当前动作的影响,需要定义值函数来表明当前状态下策略的长期影响。

 

[展开全文]

基于序列决策过程基础上

马尔克夫决策过程

1.强化学习模型构建

具体优化什么变量?

state 参数更新时和环境交互

环境给Agent一个观察,智能体给一个动作,环境给一个reward 再下一个观察...

数学化

environment将state s0传递给agent,然后action A0,reward R1

即S0 A0 R1 S1 A1...对这些序列 即Episode 学习

每一次的过程称为Episode

Si Ai相当于数据;奖赏值相当于label

目标最大化期望累积奖赏

无法直接优化Rt!

如果只优化一步的Rt,若只考虑一步的Rt,对于总体可能不是最好的,就像贪心算法那样不一定是最好的,随机性太大。

马尔克夫决策过程 MDP

对于某种问题,建立马尔可夫决策过程,然后解该模型。最后通过改模型的参数最大化期望累计奖赏来的得到最优解。

最大化期望累积奖赏: R1+R2+...+Rt+Rt+1+...

Gt=Rt+1+Rt+2...+

只考虑未来时刻和当前时刻的奖赏

但是未来时刻的reward 对当前return影响是不一样的

γ=0就是贪心算法

γ=1就是每一时刻奖赏对当前是一样的

[展开全文]

第二章 马尔科夫决策过程(1)

主讲人:王湛

课时4 :强化学习模型构建

 

序列的决策过程往往能够建模成马尔科夫决策过程。反之,如果一个问题能够用马尔科夫过程建模,那么就可以用ML解决了。 

1、建模

首先建模出agent和environment,环境对agent有一个观察1,agent对环境有一个动作1,此时环境会给agent反馈一个reward1,并给出一个观察2。这是一个不断的交互过程。

2、如何抽象成数学模型?

初始化——

observation:state(S0),S0是环境的基准状态。

action:A0,时间t=0时,agent的动作

执行——

执行A0后,

S0——>S1,R1;

A0——>A1

如此反复。

S0 A0 R1 S1 A1 R2 S2 A2 ......(称这个序列为Episode)

3、什么时候终止呢?

与监督学习做类比:(S, A)相当于训练数据,R 相当于标签。

Goal of the agent:最大化期望累积奖赏。

这里不能用单步的Rt进行优化,因为随机性太大。

对于这样的问题,可以用不同的方法来解,强化学习是其中较好的一种方法。

什么是“最大化期望累积奖赏”呢?

应该考虑过去、现在和未来所有的奖赏:

因此,真正需要最大化的应该是:

(一般的),在t时刻,agent的目标是执行动作At,并且使Gt最大化。

实际上Gt的定义并不是固定的,要考虑到不同时刻的reward 权重是不一样的,因此可以有类似这样的定义:

 

[毕]

 

 

课时5:马尔科夫奖赏过程(MRP)

课时6:马尔科夫决策过程

 

 

[展开全文]

授课教师

暂无教师
微信扫码分享课程