强化学习基本要素和概念:
- 没有监督,只有reward
- 反馈是有时延的
- 通过不断地试错使得行为获取高分,最后学到的高分行为就是学习到的策略。
- Rt表示第t个time step的返回奖赏值,是一个标量scalar
- Action来自于动作空间A,
- State指当前agent所处的状态
- Agent执行动作的智能体
- Environment,将agent当前状态和操作作为输入,并将代理的奖励和下一个状态作为输出返回
- Policy,状态映射到行为的函数,即承诺最高回报的行为
- Value长期的平均的总奖赏,相对于短期的reward
- Model,训练好的agent