深度理解强化学习_学习笔记-AI研习社

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

会员免费

现价：￥399.00

原价：￥499.00

马尔可夫决策过程（MDP）

一：介绍

马尔可夫决策过程是用来形式化地描述强化学习中的环境

其中环境是完全可以观测的

值得注意的是，大部分强化学习问题都可以看作 MDP 问题。

简单地理解，MDP是用来描述环境的，且 agent 可以观察到环境的全部信息。也就是说是完全可以观测。所以 agent的状态会等于环境的状态，因此在MDP中会出现action这个概念。

二：马尔可夫性质

现在或未来的状态依赖于过于的状态

它可以被定义为：

如果一个状态St S_tS

是马尔可夫链中的一个状态，当且仅当：

P[St+1∣St]=P[St+1∣S1,S2,...,St] P[S_{t+1}|S_t] = P[S_{t+1}|S_1, S_2, ..., S_t]

P[S

t+1

∣S

]=P[S

t+1

∣S

,...,S

]

当前状态能捕捉到过去状态的所有信息

一旦当前状态被确认，那么历史信息就可以被扔掉

状态转移矩阵

对于一个马尔可夫状态 s ss和它的后继状态S′ S^\primeS

′

, 状态转移概率可以定义为：

Pss′=P[St+1∣St=s] P_{s s^\prime} = P[S_{t+1}|S_t=s]

′

=P[S

t+1

∣S

=s]

故转移概率矩阵 P PP 可以定义为：

P=⎡⎣⎢p11...pn1.........p1n...pnn⎤⎦⎥ P =\begin{bmatrix} p_{11} & ... & p_{1n} \\ ... & ... & ... \\ p_{n1} & ... & p_{nn} \end{bmatrix}\quad

⎣

⎡

...

⎦

⎤

三：马尔可夫链

马尔可夫过程是一个无记忆性的随机过程，也就是说马尔可夫过程就是一串随机的状态序列 S1,S2,... S_1, S_2, ...S

,.... 为什么是无记忆性的呢？因为

Pss′=P(St+1=s∣St=s) P_{ss^\prime}=P(S_{t+1}=s | S_t=s)

′

=P(S

t+1

=s∣S

=s)

即下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关

深度理解强化学习

授课教师

最新学员

学员动态