首页 AI学术青年与开发者社区

1.马尔科夫奖赏过程的表示量有:

a)S状态集

b)P状态转移概率矩阵

c)R奖赏函数

d)y折扣系数

2.下一时刻的状态至于上一时刻的状态有关

3.终止状态只进不出

4.瞬时奖励是评价当前动作的好坏,值函数是评价当前状态的好坏

5.贝尔曼方程建立在状态矩阵已知的条件下求解值函数大小。

6.状态值函数是指agent在状态st根据策略π采取后续动作所得到的累积回报的期望。

7.状态行为函数是指agent从状态s出发,按照策略π采取行动得到的累积回报的期望

8.某个状态的值函数等于该状态下所有状态行为值函数的加权和。

9.状态行为函数等于该状态、该行为执行后的即时奖励的期望,加上他所导致的所有下一步状态的折减后状态值函数的加权和。

10.贝尔曼方程其实是自身以及相互之间的递推关系。

[展开全文]

马尔科夫决策过程正式描述了强化学习的环境,此环境是可以全部观察的.
几乎所有的强化学习问题都可以提炼成一个MDP问题。
 
1、马尔可夫性
定义:状态St 是马尔科夫的,当且仅当满足

2、状态转移概率
矩阵形式

3、马尔科夫链(Markov chain)
马尔科夫链是一个无记忆的随机过程,即随机过程中的状态序列具有马尔可夫性。
定义:马尔科夫链表示为<S, P>,其中 S 是状态集,P是状态转移概率矩阵。

4、奖赏过程
定义:<S, P, R, r>,其中S是状态集,P是状态转移概率矩阵,R是奖赏函数,r是折扣系数。
值函数(valuefunction):值函数是未来奖赏值的预测,可以用来评估当前状态的好坏,agent可以根据此来选择要执行的动作。

5、贝尔曼方程
MRP矩阵形式:v = R + r P v,其中v是一个列向量

 

[展开全文]

马尔科夫决策过称正式描述强化学习的环境;因此此环境是可以全部观察的;几乎所有的强化学习问题都可以提炼成一个MDP问题

全部观察指环境的所有状态,所有reward集合我们都知道

马尔克夫性 P[St+1|St]=P[St+1|S1,...St]

下一时刻转移的状态之和前一时刻有关和之前的都没有关系

状态转移概率Pss' =P[St+1=s'|St=s]

类似于指数分布

P11指前一时刻状态为1的状态到下一时刻依然在1时刻的概率

Markov chain <S,P> S是状态集合P是状态转移概率矩阵

sleep是一个状态的终止,即进入该状态只会以1的概率待在这个状态,不会进入别的状态

 

状态转移概率矩阵特点 对于每一行 每一列求和都为1,

Markov reward process:<S,P,R,γ>

R是奖赏函数,伽马是折扣系数

Value function值函数是未来奖赏值得预测;可以用来评估当前状态的好坏;agent可以根据此来选择要执行的动作 Vπ(S)=Eπ[Gt|St=s] 当前状态return的期望

Vπ(S)=Eπ[Rt+γRt+1+...|St=s]=Eπ[Rt+γ[Rt+1+Rt+2+...]|St=s]=Eπ[Rt+1+γGt+1|St=s]=Eπ[Rt+1+γv(St+1)|St=s]  V(s)=Rs+γ∑Pss'V(s')(s'属于S)

收获是针对一个马尔可夫链中的某一个状态来说的

MRP矩阵形式 贝尔曼方程v=R+γPv

只需要求得相关转移的逆矩阵就可以求解贝尔曼方程

v=R+γPv; (1-γP)v=R; v=(1-γP)^(-1)R

RL实际问题中转移概率不知道

[展开全文]

马尔科夫过程

马尔科夫过程Markov Process或者马尔科夫链是一个无记忆随机过程,是一些具有马尔科夫性质的随机状态序列构成,可以用一个元组 <S,P>表示,其中S是有限数量的状态集,P是状态转移概率矩阵。

马尔科夫奖赏过程定义

马尔科夫奖励过程Markov Reward Process是在马尔科夫过程的基础上增加了奖励R和衰减系数γ

-值函数是未来奖赏值 的预测,可以用来评估当前状态的好坏

-agent可以根据此来选择要执行的动作

 

贝尔曼期望方程Bellman Equation

状态值函数的引入解决了Return Gt路径有很多条,不容易优化的问题,将其转化为期望就变成固定标量了,很明显的转化。但是现在又出现另一个问题了,状态值函数也不好算,因为在计算某个状态时候需要使用到将来所有状态的Gt,这明显是不科学的。那么凭借大家学习算法思想,既然是状态更新,既然是马尔科夫的,很容易想到应用迭代思想求解,而贝尔曼期望方程就是一个迭代方程,目的是使得状态值函数容易求解。

[展开全文]

第2章 马尔科夫决策过程 02

课时5 马尔科夫奖赏过程

 

马尔科夫决策过程正式描述了强化学习的环境。

因此此环境是可以全部观察的

几乎所有的强化学习问题都可以提炼成一个MDP问题。

 

1、马尔可夫性

定义:状态St 是马尔科夫的,当且仅当满足

即t+1时刻的状态St+1的概率只与St有关,而与其他状态无关。

2、状态转移概率

矩阵形式

3、马尔科夫链(Markov chain)

马尔科夫链是一个无记忆的随机过程,即随机过程中的状态序列具有马尔可夫性。

定义:马尔科夫链表示为<S, P>,其中 S 是状态集,P是状态转移概率矩阵。

一般用状态转移图来表示。例如:

写成概率矩阵形式为:

 

4、奖赏过程

定义:<S, P, R, r>,其中S是状态集,P是状态转移概率矩阵,R是奖赏函数,r是折扣系数。

值函数(value function):值函数是未来奖赏值的预测,可以用来评估当前状态的好坏,agent可以根据此来选择要执行的动作。

值函数可以被分解为两个部分

后面的方程称为贝尔曼方程,是一个迭代的方程。

对这个推导的图解表示

计算实例:略。

 

5、贝尔曼方程

MRP矩阵形式:v = R + r P v,其中v是一个列向量

要解贝尔曼方程,只需要通过如下推导,就能得到等式,所以只需要求得相关转移概率的逆矩阵就可以求解贝尔曼方程:

p.s. :动态规划是解这个方程的一套方法。

 

[展开全文]

授课教师

暂无教师
微信扫码分享课程