学习这门课程的先验知识:
- ML(可以上CS189,CS289,cs284A)
- Tensorflow基础(作业提供的代码是tensorflow的)
- python基础
- 从监督学习到决策问题
- model-free的算法:Q-learning,policy gradients,actor-critic
- 先进的基于模型的学习和预测
- Exploration(RL中的一个概念)
- 迁移学习,多任务学习,元学习
- 更多高级话题
- homework1:模仿学习(如果期间tensorflow不清楚或者pytorch不是很清楚可以去补习一下)
- homework2:实现policy gradients
- homework3:Q-learning and actor-critic algorithms
- hoemwork4:Model-based reinforcement learning
- homework5:Advanced model-free RL algorithms
- Final Project:ICML或者NIPS级别的workshop papaer(顶会论文)的同学可以考虑
- 能够接受各种各样高纬度的输入
- 能够从无穷多的动作空间中选择决策。