马尔可夫决策过程(MDP)
一:介绍
马尔可夫决策过程是用来形式化地描述强化学习中的环境
其中环境是完全可以观测的
值得注意的是,大部分强化学习问题都可以看作 MDP 问题。
简单地理解,MDP是用来描述环境的,且 agent 可以观察到环境的全部信息。也就是说是完全可以观测。所以 agent的状态会等于环境的状态,因此在MDP中会出现action这个概念。
二:马尔可夫性质
现在或未来的状态依赖于过于的状态
它可以被定义为:
如果一个状态St S_tS
t
是马尔可夫链中的一个状态,当且仅当:
P[St+1∣St]=P[St+1∣S1,S2,...,St] P[S_{t+1}|S_t] = P[S_{t+1}|S_1, S_2, ..., S_t]
P[S
t+1
∣S
t
]=P[S
t+1
∣S
1
,S
2
,...,S
t
]
当前状态能捕捉到过去状态的所有信息
一旦当前状态被确认,那么历史信息就可以被扔掉
状态转移矩阵
对于一个马尔可夫状态 s ss和它的后继状态S′ S^\primeS
′
, 状态转移概率可以定义为:
Pss′=P[St+1∣St=s] P_{s s^\prime} = P[S_{t+1}|S_t=s]
P
ss
′
=P[S
t+1
∣S
t
=s]
故转移概率矩阵 P PP 可以定义为:
P=⎡⎣⎢p11...pn1.........p1n...pnn⎤⎦⎥ P =\begin{bmatrix} p_{11} & ... & p_{1n} \\ ... & ... & ... \\ p_{n1} & ... & p_{nn} \end{bmatrix}\quad
P=
⎣
⎡
p
11
...
p
n1
...
...
...
p
1n
...
p
nn
⎦
⎤
三:马尔可夫链
马尔可夫过程是一个无记忆性的随机过程,也就是说马尔可夫过程就是一串随机的状态序列 S1,S2,... S_1, S_2, ...S
1
,S
2
,.... 为什么是无记忆性的呢?因为
Pss′=P(St+1=s∣St=s) P_{ss^\prime}=P(S_{t+1}=s | S_t=s)
P
ss
′
=P(S
t+1
=s∣S
t
=s)
即下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关