首页 AI学术青年与开发者社区

1.马尔科夫决策过程与强化学习的关系:能构造MDP就可以用强化学习。

2.模型预测:针对值

3.模型控制:获得最优策略

4.Pss'a的含义为当前agent所处的状态s下,经过动作a后状态转移至s'的概率大小。

5.Pss'a转移至s’也是存在一定随机性的。

6.只考虑下一步动作带来的影响,而不考虑之后一些列动作带来的影响,虽然简单,很多情况下就是最优解。

7.策略为在每个可能的状态,agent应该采取的动作概率的分布。

8.策略是强化学习的核心部分,策略的好坏最终决定了agent的行动和整体性能。

9.策略可以是随机的,也可以是确定的。

10.一个策略函数定义为π:S>A,即输入为状态S,输出为 A

11.策略的实质为,告诉agent状态S下该执行的动作。

12.策略可分为确定策略和不确定策略。

[展开全文]
马尔可夫决策过程(MDP)
一:介绍
马尔可夫决策过程是用来形式化地描述强化学习中的环境
其中环境是完全可以观测的
值得注意的是,大部分强化学习问题都可以看作 MDP 问题。
简单地理解,MDP是用来描述环境的,且 agent 可以观察到环境的全部信息。也就是说是完全可以观测。所以 agent的状态会等于环境的状态,因此在MDP中会出现action这个概念。
二:马尔可夫性质
现在或未来的状态依赖于过于的状态
它可以被定义为:
如果一个状态St S_tS 
t
 是马尔可夫链中的一个状态,当且仅当:
P[St+1∣St]=P[St+1∣S1,S2,...,St] P[S_{t+1}|S_t] = P[S_{t+1}|S_1, S_2, ..., S_t]
P[S 
t+1
 ∣S 
t
 ]=P[S 
t+1
 ∣S 
1
 ,S 
2
 ,...,S 
t
 ]
当前状态能捕捉到过去状态的所有信息
一旦当前状态被确认,那么历史信息就可以被扔掉
状态转移矩阵
对于一个马尔可夫状态 s ss和它的后继状态S′ S^\primeS 
 , 状态转移概率可以定义为:
Pss′=P[St+1∣St=s] P_{s s^\prime} = P[S_{t+1}|S_t=s]
ss 
 
 =P[S 
t+1
 ∣S 
t
 =s]
 
故转移概率矩阵 P PP 可以定义为:
P=⎡⎣⎢p11...pn1.........p1n...pnn⎤⎦⎥ P =\begin{bmatrix} p_{11} & ... & p_{1n} \\ ... & ... & ... \\ p_{n1} & ... & p_{nn} \end{bmatrix}\quad
P= 
  
11
 
...
n1
 
  
...
...
...
  
1n
 
...
nn
 
  
 
 
三:马尔可夫链
马尔可夫过程是一个无记忆性的随机过程,也就是说马尔可夫过程就是一串随机的状态序列 S1,S2,... S_1, S_2, ...S 
1
 ,S 
2
 ,.... 为什么是无记忆性的呢?因为
Pss′=P(St+1=s∣St=s) P_{ss^\prime}=P(S_{t+1}=s | S_t=s)
ss 
 
 =P(S 
t+1
 =s∣S 
t
 =s)
 
即下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关
 
[展开全文]

授课教师

暂无教师
微信扫码分享课程