深度理解强化学习_学习笔记-AI研习社

1.马尔科夫奖赏过程的表示量有：

a）S状态集

b）P状态转移概率矩阵

c）R奖赏函数

d）y折扣系数

2.下一时刻的状态至于上一时刻的状态有关

3.终止状态只进不出

4.瞬时奖励是评价当前动作的好坏，值函数是评价当前状态的好坏

5.贝尔曼方程建立在状态矩阵已知的条件下求解值函数大小。

6.状态值函数是指agent在状态st根据策略π采取后续动作所得到的累积回报的期望。

7.状态行为函数是指agent从状态s出发，按照策略π采取行动得到的累积回报的期望

8.某个状态的值函数等于该状态下所有状态行为值函数的加权和。

9.状态行为函数等于该状态、该行为执行后的即时奖励的期望，加上他所导致的所有下一步状态的折减后状态值函数的加权和。

10.贝尔曼方程其实是自身以及相互之间的递推关系。

[展开全文]

妮娜•伏恩 · 2019-08-06 · 马尔科夫奖赏过程 0

马尔科夫决策过程正式描述了强化学习的环境,此环境是可以全部观察的.
几乎所有的强化学习问题都可以提炼成一个MDP问题。

1、马尔可夫性
定义：状态St 是马尔科夫的，当且仅当满足

2、状态转移概率
矩阵形式

3、马尔科夫链（Markov chain）
马尔科夫链是一个无记忆的随机过程，即随机过程中的状态序列具有马尔可夫性。
定义：马尔科夫链表示为<S, P>，其中 S 是状态集，P是状态转移概率矩阵。

4、奖赏过程
定义：<S, P, R, r>，其中S是状态集，P是状态转移概率矩阵，R是奖赏函数，r是折扣系数。
值函数（valuefunction）：值函数是未来奖赏值的预测，可以用来评估当前状态的好坏，agent可以根据此来选择要执行的动作。

5、贝尔曼方程
MRP矩阵形式：v = R + r P v，其中v是一个列向量

[展开全文]

维娜•普赖斯 · 2019-07-16 · 马尔科夫奖赏过程 0

马尔科夫决策过称正式描述强化学习的环境；因此此环境是可以全部观察的；几乎所有的强化学习问题都可以提炼成一个MDP问题

全部观察指环境的所有状态，所有reward集合我们都知道

马尔克夫性 P[St+1|St]=P[St+1|S1,...St]

下一时刻转移的状态之和前一时刻有关和之前的都没有关系

状态转移概率Pss' =P[St+1=s'|St=s]

类似于指数分布

P11指前一时刻状态为1的状态到下一时刻依然在1时刻的概率

Markov chain <S,P> S是状态集合P是状态转移概率矩阵

sleep是一个状态的终止，即进入该状态只会以1的概率待在这个状态，不会进入别的状态

状态转移概率矩阵特点对于每一行每一列求和都为1，

Markov reward process:<S,P,R,γ>

R是奖赏函数，伽马是折扣系数

Value function值函数是未来奖赏值得预测；可以用来评估当前状态的好坏；agent可以根据此来选择要执行的动作 Vπ(S)=Eπ[Gt|St=s] 当前状态return的期望

Vπ(S)=Eπ[Rt+γRt+1+...|St=s]=Eπ[Rt+γ[Rt+1+Rt+2+...]|St=s]=Eπ[Rt+1+γGt+1|St=s]=Eπ[Rt+1+γv(St+1)|St=s] V(s)=Rs+γ∑Pss'V(s')(s'属于S)

收获是针对一个马尔可夫链中的某一个状态来说的

MRP矩阵形式贝尔曼方程v=R+γPv

只需要求得相关转移的逆矩阵就可以求解贝尔曼方程

v=R+γPv; (1-γP)v=R; v=(1-γP)^(-1)R

RL实际问题中转移概率不知道

[展开全文]

PoleToWinF1 · 2019-06-08 · 马尔科夫奖赏过程 0

马尔科夫过程

马尔科夫过程Markov Process或者马尔科夫链是一个无记忆随机过程，是一些具有马尔科夫性质的随机状态序列构成，可以用一个元组 <S,P>表示，其中S是有限数量的状态集，P是状态转移概率矩阵。

马尔科夫奖赏过程定义

马尔科夫奖励过程Markov Reward Process是在马尔科夫过程的基础上增加了奖励R和衰减系数γ

-值函数是未来奖赏值的预测，可以用来评估当前状态的好坏

-agent可以根据此来选择要执行的动作

贝尔曼期望方程Bellman Equation

状态值函数的引入解决了Return Gt路径有很多条，不容易优化的问题，将其转化为期望就变成固定标量了，很明显的转化。但是现在又出现另一个问题了，状态值函数也不好算，因为在计算某个状态时候需要使用到将来所有状态的Gt，这明显是不科学的。那么凭借大家学习算法思想，既然是状态更新，既然是马尔科夫的，很容易想到应用迭代思想求解，而贝尔曼期望方程就是一个迭代方程，目的是使得状态值函数容易求解。

[展开全文]

宅总 · 2019-05-08 · 马尔科夫奖赏过程 1

第2章马尔科夫决策过程 02

课时5 马尔科夫奖赏过程

马尔科夫决策过程正式描述了强化学习的环境。

因此此环境是可以全部观察的

几乎所有的强化学习问题都可以提炼成一个MDP问题。

1、马尔可夫性

定义：状态St 是马尔科夫的，当且仅当满足

即t+1时刻的状态St+1的概率只与St有关，而与其他状态无关。

2、状态转移概率

矩阵形式

3、马尔科夫链（Markov chain）

马尔科夫链是一个无记忆的随机过程，即随机过程中的状态序列具有马尔可夫性。

定义：马尔科夫链表示为<S, P>，其中 S 是状态集，P是状态转移概率矩阵。

一般用状态转移图来表示。例如：

写成概率矩阵形式为：

4、奖赏过程

定义：<S, P, R, r>，其中S是状态集，P是状态转移概率矩阵，R是奖赏函数，r是折扣系数。

值函数（value function）：值函数是未来奖赏值的预测，可以用来评估当前状态的好坏，agent可以根据此来选择要执行的动作。

值函数可以被分解为两个部分

后面的方程称为贝尔曼方程，是一个迭代的方程。

对这个推导的图解表示

计算实例：略。

5、贝尔曼方程

MRP矩阵形式：v = R + r P v，其中v是一个列向量

要解贝尔曼方程，只需要通过如下推导，就能得到等式，所以只需要求得相关转移概率的逆矩阵就可以求解贝尔曼方程：

p.s. ：动态规划是解这个方程的一套方法。

[展开全文]

卡莫•莱昂 · 2019-05-06 · 马尔科夫奖赏过程 1

深度理解强化学习

授课教师

最新学员

学员动态