首页 AI学术青年与开发者社区
强化学习与策略评估 大讲堂 | 第31期
这次分享,我们将一起探讨强化学习的理论框架
开课时间:2017/11/08 20:00 预计时长:一个小时
课程回放
352人报名
观看回放
课程介绍

分享主题

强化学习与策略评估

 

分享内容

强化学习(Reinforcement learning)在近几年收到越来越多的关注,对于强化学习的理论探讨也一直是研究热点。这次分享,我们将一起探讨强化学习的理论框架。在此基础上,策略评估(policy evaluation)是强化学习中最基础也是最重要的一个组成部分,其收敛性质的分析对于理解和改进这一类算法非常重要。但是如果只停留在一些非常理想化的假设下,得到的结果往往难以令人信服。在这次要分享的一个工作中,我们将给出一类策略评估算法在一些更贴近实际的假定下(RL天然的数据不独立同分布性,步长多种设置方式等 )的收敛速率分析结果,从而更加确切的回答了关于这一类算法收敛性质的疑问,并且提供了解决类似问题的一个可用的理论工具。

 

分享大纲

  •  强化学习(RL)背景框架介绍和符号说明
  •  策略评估(policy evaluation)的常用方法介绍(如GTD 算法)
  • 原有的GTD 算法的收敛速率分析结果
  •  在一些更贴近实际的假定下(RL天然的数据不独立同分布性,步长多种设置方式等),  给出收敛性分析的结果
  • 总结与反思
 
分享人

汪跃,北京交通大学数学系三年级博士生,专业为概率论与数理统计,导师是马志明院士。 他的研究兴趣在于机器学习、优化算法、强化学习的算法设计和算法理论分析。 在此之前,他于2015年在北京交通大学理学院院获得学士学位。 他现在微软亚洲研究院机器学习组实习。

 

分享时间

北京时间11月8日(周三)晚20:00 

 

 

课程须知
  • 本次分享将于11月8日周三晚8点准时开始,请大家提前10分钟进入直播教室
  • 公开课后两天内会上传回放视频,错过直播的同学也不要担心
  • 欢迎大家多多向嘉宾提问,问题被采纳者有机会获得神秘礼品

授课教师

北京交通大学数学系三年级博士生
微信扫码分享课程