首页 AI学术青年与开发者社区

【中文字幕】2017春季CS231n 斯坦福深度视觉识别课

开课时间:2017年11月10日
开课时长:讲座共有6个lecture,3个 Guest Talk,已完结。加入小组即可立即观看(完全免费):https://ai.yanxishe.com/page/groupDetail/19。
免费课 基础入门
现价: 免费
该课程已关闭

通过一个代理和环境进行交互执行一系列行动,通过这些行动可以获取最大的奖励(学习如何获取到最大的奖励)

环境给予代理一个状态,代理根据这个状态执行相对应的动作,然后环境给这个动作一个奖励(该奖励为正时为奖励,为负时代表惩罚)然后环境会给予代理下一个状态循环往复,最后从中学会一个策略对环境给出的状态能够得到一个好的结果。

马尔可夫决策过程(Markov Decision Process)

当前状态由四个参数决定如下图所示,来自课程截图

决策过程:

1.在第一步初始化当前状态s0和当前状态的概率P0.

2.循环以下行动直到完成训练:

2.1 Agent(代理)从动作集合中选择当前一个动作应用于当前状态

2.2代理执行动作后环境给出一个评价对应当前的状态和动作(告诉代理它做的对不对,给出惩罚或者奖励)。

2.3环境生成下一步的状态(由当前状态和动作得到一个概率,该概率用来生成下一步状态)

2.4代理接收到奖励和下一步的状态,准备进入下一次循环

Bellman equation

通过执行一些行动我们可以得到一个最大期望的Q值,通过迭代来达到一个收敛值。缺点:不可扩展,对于每一个状态都需要进行一次计算,计算量大。

 

[展开全文]

相关课程

开课日期:直播已结束,可回看开始
智能驾驶 基础入门 86959
开课日期:开始
机器学习 基础入门 111690

授课教师

暂无教师
微信扫码分享课程