强化学习与策略评估-AI慕课学院

任务提示

规则说明

1.一张解锁卡可解锁一个课时
2.加入多个小组按照每个小组内所完成的情况为准
3.课程对应的小组所获得的解锁卡仅限于解锁当前课程的课时
4.用户退出所有小组后，需加课程相关小组才可解锁观看
5.如果课时已解锁，用户退出小组，仍可在关联该课程的其他小组查看已解锁课时
6.小组组长、副组长及译者，可查看全部课时

邀请好友

打卡

发布笔记

观看回放 >

课程介绍

分享主题

强化学习与策略评估

分享内容

强化学习(Reinforcement learning)在近几年收到越来越多的关注，对于强化学习的理论探讨也一直是研究热点。这次分享，我们将一起探讨强化学习的理论框架。在此基础上，策略评估(policy evaluation)是强化学习中最基础也是最重要的一个组成部分，其收敛性质的分析对于理解和改进这一类算法非常重要。但是如果只停留在一些非常理想化的假设下，得到的结果往往难以令人信服。在这次要分享的一个工作中，我们将给出一类策略评估算法在一些更贴近实际的假定下（RL天然的数据不独立同分布性，步长多种设置方式等）的收敛速率分析结果，从而更加确切的回答了关于这一类算法收敛性质的疑问，并且提供了解决类似问题的一个可用的理论工具。

分享大纲

强化学习（RL）背景框架介绍和符号说明
策略评估（policy evaluation）的常用方法介绍（如GTD 算法）
原有的GTD 算法的收敛速率分析结果
在一些更贴近实际的假定下（RL天然的数据不独立同分布性，步长多种设置方式等），给出收敛性分析的结果
总结与反思

分享人

汪跃，北京交通大学数学系三年级博士生，专业为概率论与数理统计，导师是马志明院士。他的研究兴趣在于机器学习、优化算法、强化学习的算法设计和算法理论分析。在此之前，他于2015年在北京交通大学理学院院获得学士学位。他现在微软亚洲研究院机器学习组实习。

分享时间

北京时间11月8日（周三）晚20:00

课程须知

本次分享将于11月8日周三晚8点准时开始，请大家提前10分钟进入直播教室
公开课后两天内会上传回放视频，错过直播的同学也不要担心
欢迎大家多多向嘉宾提问，问题被采纳者有机会获得神秘礼品

授课教师