课程小组
¥
支付方式
请使用微信扫一扫 扫描二维码支付
请使用支付宝扫一扫 扫描二维码支付
分享主题
强化学习与策略评估
分享内容
强化学习(Reinforcement learning)在近几年收到越来越多的关注,对于强化学习的理论探讨也一直是研究热点。这次分享,我们将一起探讨强化学习的理论框架。在此基础上,策略评估(policy evaluation)是强化学习中最基础也是最重要的一个组成部分,其收敛性质的分析对于理解和改进这一类算法非常重要。但是如果只停留在一些非常理想化的假设下,得到的结果往往难以令人信服。在这次要分享的一个工作中,我们将给出一类策略评估算法在一些更贴近实际的假定下(RL天然的数据不独立同分布性,步长多种设置方式等 )的收敛速率分析结果,从而更加确切的回答了关于这一类算法收敛性质的疑问,并且提供了解决类似问题的一个可用的理论工具。
分享大纲
汪跃,北京交通大学数学系三年级博士生,专业为概率论与数理统计,导师是马志明院士。 他的研究兴趣在于机器学习、优化算法、强化学习的算法设计和算法理论分析。 在此之前,他于2015年在北京交通大学理学院院获得学士学位。 他现在微软亚洲研究院机器学习组实习。
分享时间
北京时间11月8日(周三)晚20:00