课程概览
1:从监督学习到制定决策
2:model-free的算法,如价值学习策略,策略梯度,演员批评家策略等
3:高级的模型学习和预测
4:已知最优策略与探索策略
5:迁移学习、多任务学习、及元学习
6:开放问题、研究讲座、客邀讲座
强化学习第一课
1:如何建立一个智能机器
强化学习为非结构化环境中的学习提供了一种形式。代理与环境之间通过决策与反馈进行学习。
2:什么是深度强化学习,为何关注它
深度学习提供了端到端的训练学习,好处是不用人的手动调节,本身是自适应的目标最优化的过程。
强化学习在现实中的限制为:找到正确的特征使得增强学习算法表现优异。
3:端到端学习对决策的意义
端到端的学习节省时间,不用人工手动调节。
深度模型使强化学习算法可以端到端的解决复杂问题。
4:为何是现在
深度学习、强化学习、计算机算力已经取得了突破性的进展。
5:深度强化学习的基本概念
深度学习部分:处理复杂的感知输入。
强化学习部分:选择复杂的行动。