这一节开始讲强化学习。
主要可以分为三步:
1。 generate smaples 这一步产生数据, 比如开车获得摄像头等传感器数据
2。fit a model/estimate the return 模型的匹配, 回归等
3。improve the policy 改善策略, 优化模型
通过这三步的循环, 可以使策略越来越优化。剩余课程将会深化这些方法,但是基本的步骤还是在于这三步。不同方法中的差异主要在于侧重点不同, 有些方法追求训练效率, 有的方法只能提供数量较少的数据, 有的方法注重实时性等。