首页 AI学术青年与开发者社区

【中文字幕】2018 MIT 6.S094 麻省理工深度学习和自动驾驶课程

开课时间:已完结!
开课时长:讲座共有5个lecture,3个 Guest Talk,每周五更新

markov decision process;

贝尔曼方程;Q-learning;

deep Q-network;

MCTS;

 

 

[展开全文]

 传感器感知,提取数据特征以及数据结构,作为输入,映射成更高阶的感知

 

强化学习的目  标,就是对稀疏的奖励数据进行学习,通过从稀疏的人工标定的数据当中获取知识

我们可以将监督学习想象成对真实数据的一种记忆模式,这种模式能够从真实数据中提取出表征。我们可以认为强化学习是一种暴力传播信息的方式,尤其是松散稀疏且基于时间的信息。通过对某些行为赋予奖励点数,以此来固化智能体学习到的知识。

 

价值函数是对每个状态以及基于这个状态所采取的行动的一种评估。

深度学习能够学习到表征

 

损失函数是神经网络和Q-Learnging结合的核心,通俗来说就是Q Leanring 通过之前的知识,Q表格来规划接下来的状态和行动变化,然后神经网络通过这个损失函数来学习和评估这个行动计划是否足够好,然后反馈给Q表以如此循环

 

 

 

[展开全文]

进入小组观看课程

以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流