第 2 章 马尔科夫过程
课时6 马尔科夫决策过程
MDP模型的构建过程:要学会将一个问题转化成MDP问题,并用数学形式表示出来。
1、马尔科夫决策过程
定义:<S, P, A, R, r>
S是状态集
A是动作集
P是状态转移概率矩阵:
R是奖赏集合
r是折扣系数, r in [0, 1]
在这个模型中加入了动作,因此P的结构也发生了变化。
Note:以上,红色的是agent知道的信息,蓝色的是agent不知道的。要学习的正是 P;而奖赏 R 是环境反馈的。
2、案例:捡垃圾的机器人
状态 S ={ high, low}(高电量,低电量)
动作 A = {search, wait, charge}