首页 AI学术青年与开发者社区

第 2 章 马尔科夫过程

课时6 马尔科夫决策过程

 

MDP模型的构建过程:要学会将一个问题转化成MDP问题,并用数学形式表示出来。

 

1、马尔科夫决策过程

 

定义:<S, P, A, R, r>

S是状态集

A是动作集

P是状态转移概率矩阵:

R是奖赏集合

r是折扣系数, r in [0, 1]

在这个模型中加入了动作,因此P的结构也发生了变化。

Note:以上,红色的是agent知道的信息,蓝色的是agent不知道的。要学习的正是 P;而奖赏 R 是环境反馈的。

 

2、案例:捡垃圾的机器人

 

状态 S ={ high, low}(高电量,低电量)

动作 A = {search, wait, charge}

 

[展开全文]

授课教师

暂无教师
微信扫码分享课程