1.奖励Rt是个标量
2.action是来自动作空间,agent对每次所处的state用以及上一状态的reward确定当前要执行什么action。执行action要达到最大化期望reward,直到最终算法收敛,所得的policy就是一系列action的连续数据。
3.输入量为当前的状态和操作;输出量为下一时刻的状态和奖励。
4.state:智能体所处环境的状态
action:智能体所执行的动作
reward:环境对智能体的评价
environment:智能体所处的环境
agent:本体,算法
5.agent与环境的交互接口包括action、reward和state。
6.每一步agent根据policy选择一个行动执行,然后感知下一步状态和及时回报,通过经验再修改自己的策略。
7.agent的目标就是最大化长期回报,仅考虑即时奖励是显然不够的。
8.return和reward的区别在于:回报是奖励的积累。
9.policy是指agent在特定状态下的行为依据,是 从state到action的映射。分为确定策略和随机策略。
10.