首页 AI学术青年与开发者社区

计算机视觉基础入门课程(从算法到实战应用)

开课时间:所有课时已更新完成,可随时开始学习
开课时长:24个课时,12次课
机器学习 基础入门
会员免费
现价:¥699.00
原价:¥999.00

  开通会员,立省699元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

强化学习与其他机器学习方法的区别:

  • 强化学习无指导数据,只有反馈信息,而监督学习有groundtruth和类标。
  • 反馈信息是有延迟的,可用于下一阶段的指导。
  • 要处理的数据是时序的
  • Agent的行为会影响到其随后将收到的数据。
强化学习的基本模型:
状态:Ot,行为At,反馈Rt
 
所有的强化学习都是建立在马尔可夫决策过程之上的,即,任何一个强化学习问题都是一个MDP问题。
马尔可夫链:

其中:

马尔可夫状态转移图:

状态转移图对应的状态转移矩阵

马尔可夫奖赏过程(MRP):

马尔可夫决策过程;

 

 

[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 29885
开课日期:2020-07-04 08:50开始
4906

授课教师

暂无教师
微信扫码分享课程