首页 AI学术青年与开发者社区

1.奖励Rt是个标量

2.action是来自动作空间,agent对每次所处的state用以及上一状态的reward确定当前要执行什么action。执行action要达到最大化期望reward,直到最终算法收敛,所得的policy就是一系列action的连续数据。

3.输入量为当前的状态和操作;输出量为下一时刻的状态和奖励。

4.state:智能体所处环境的状态

action:智能体所执行的动作

reward:环境对智能体的评价

environment:智能体所处的环境

agent:本体,算法

5.agent与环境的交互接口包括action、reward和state。

6.每一步agent根据policy选择一个行动执行,然后感知下一步状态和及时回报,通过经验再修改自己的策略。

7.agent的目标就是最大化长期回报,仅考虑即时奖励是显然不够的。

8.return和reward的区别在于:回报是奖励的积累。

9.policy是指agent在特定状态下的行为依据,是 从state到action的映射。分为确定策略和随机策略。

10.

[展开全文]

基于概率 和 基于价值

基于概率是强化学习中最直接的一种, 他能通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动, 所以每种动作都有可能被选中, 只是可能性不同. 而基于价值的方法输出则是所有动作的价值, 我们会根据最高价值来选着动作, 相比基于概率的方法, 基于价值的决策部分更为铁定, 毫不留情, 就选价值最高的, 而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到他.

我们现在说的动作都是一个一个不连续的动作, 而对于选取连续的动作, 基于价值的方法是无能为力的. 我们却能用一个概率分布在连续动作中选取特定动作, 这也是基于概率的方法的优点之一. 那么这两类使用的方法又有哪些呢?

比如在基于概率这边, 有 Policy Gradients, 在基于价值这边有 Q learningSarsa 等. 而且我们还能结合这两类方法的优势之处, 创造更牛逼的一种方法, 叫做 Actor-Critic, actor 会基于概率做出动作, 而 critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程.

[展开全文]

强化学习基本要素和概念:

  1. 没有监督,只有reward
  2. 反馈是有时延的
  3. 通过不断地试错使得行为获取高分,最后学到的高分行为就是学习到的策略。
  4. Rt表示第t个time step的返回奖赏值,是一个标量scalar
  5. Action来自于动作空间A
  6. State指当前agent所处的状态
  7. Agent执行动作的智能体
  8. Environment,将agent当前状态和操作作为输入,并将代理的奖励和下一个状态作为输出返回
  9. Policy,状态映射到行为的函数,即承诺最高回报的行为
  10. Value长期的平均的总奖赏,相对于短期的reward
  11. Model,训练好的agent
[展开全文]

强化学习的要素和概念

像婴儿学走路那样
根据正负反馈

不像监督学习有直接反馈,一般是持续数据
对每次行为打分,不告知标准答案,通过不停地试错过程使行为获得高分
通过interaction获得交互
Reward Rt 标量 表示第t个time step的奖赏值,强化学习基于reward假设的
Action 对每次state以及上一状态的reward确定要执行的action,最优策略要最大化reward,所得policy就是action的sequential data
state 当前agent所处的状态
Agent 执行动作的智能体
Environment 将agent当前状态作为输入,并将奖励和下一状态作为输出
Policy 根据当前状态确定下一个操作的策略
Value 长期的平均的总奖赏,相对于短期reward
Model 预测环境接下来会干什么

[展开全文]

强化学习是机器学习的一个分支,与其他类型机器学习的区别:

  • Thers  is no supervisor, only a reward signal.
  • Feedback is delayed, not instantaneous.
  • Time realy matters(sequential).
  • Agent's action affect the subsequent data it receives.
由于只有激励数据,一般来说,强化学习需要通过不停的试错来获取更高的得分。
 
  • Reward:通常被计作Rt,表示第t个time step的激励值。
  • Action:来自于动作空间,智能体对每次所出的状态、以及上一状态的的激励值来确定当前要执行什么动作。执行动作要达到最大化期望激励,知道算法收敛。最终得到的策略就是一系列行为的序列数据。
  • Action:当前智能体所处的状态,不同的情况状态差别很大。
  • Agent:执行动作的智能体。在强化学习算法中算法本身就是一个智能体。
  • Environment:智能体所处的环境。环境将智能体的当前状态和操作作为输入,并将代理的奖励和下一个状态作为输出返回。
  • Policy:是智能体根据当前状态确定下一个操作所采用的策略。它将状态映射到行为,即承诺最高回报的行为。分为确定策略与随机策略。从数学角度出发就是一个函数。
  • Value:长期的平均的总奖赏,相当于一个短期激励。因为强化学习基本上可以总结为通过最大化激励来得到一个最优策略。所以为了很好地客户使包括了未来的当前激励值最大(即从当前时刻开始,移植到状态达到目标的的总激励值最大)。因此构造了值函数来描述这一变量。
  • Model:就是用来预测环境接下来会干什么,即在这一状态的情况下执行某一栋做会达到什么样的状态,这一个动作会得到什么激励。
[展开全文]

强化学习基本要素和概念

  • There is no supervisor, only a reward signal
  • Feedback is delayed, not instantaneous
  • Time really matters (sequential, non i.i.d data)
  • Agent's actions affect the subsequent data it receives

At each step t the agent:

  • Executes action At
  • Receives observation Qt
  • Receives scalar reward Rt

The environment:

  • Receives action At
  • Emits observation Qt+1
  • Emits scalar reward Rt+1

t increments at env. step

Reward: 记作Rt,表示第t个time step的返回奖赏值,所有强化学习都是基于reward假设的,reward是一个标量。

Action: 来自动作空间,agent对每次所处的state以及上一状态的reward确定当前要执行什么action。执行action要达到最大化期望reward,直到最终算法收敛,所得的policy就是一系列action的sequential data。

State: 就是当前agent所处的状态。

Agent: 执行动作的智能体,在RL中,算法本身就是agent。

Environment: 智能体所经过的世界。环境将智能体的当前状态和操作作为输入,并将代理的奖励和下一个状态作为输出返回。

Policy: 策略是智能体根据当前状态确定下一个操作所采用的策略。它将状态映射到行为,即承诺最高回报的行为。可分为确定策略和随机策略。

Value: 长期的平均总奖赏,想对于短期的reward。因为RL基本可以总结通过最大化"reward"来得到一个最优策略。所以为了很好地刻画包括未来的当前reward值最大化(即从当前时刻开始一直到状态达到目标的总reward最大)。因此构造值函数(value function)来描述这一变量。

Model: 用来预测环境接下来会干什么,即在这一状态的情况下执行某一动作会达到什么样的状态,这一动作会得到什么reward,Agent的目标就是通过训练学到这一个模型。

 

 

 

[展开全文]

笔记:深度理解强化学习

主讲:王湛

第二课:强化学习基本要素和概念

这节课程介绍了强化学习基本的框架和概念,这是后续课程的必备基础。

 

 

一、模型基本要素

 

 

机器学习可以分为三个大的分支:

  1. 有监督学习
  2. 无监督学习
  3. 强化学习
强化学习的过程如婴儿学步,该如何抬脚、使多大力等,是一步一步试探出来的。
强化学习的过程如狗的训练,发出一个命令,根据执行结果进行奖励或惩罚。
 
  • there is no supervisor, only a reward signal
  • feedback is delayed, not instantaneous.
  • time really matters (sequential)
  • agent's actions affect the subsecuent data it receives.
 
计算机想要通过强化学习做决策,需要一个老师,但老师只给你打分,而不告诉你该怎么做,计算机通过不停地试错过程来使行为能够获取高分。最后学到的高分的行为就是我们最后学习到的策略。
 
 
 
在每一个时间 t
agent:收到一个观察Ot,收到一个reward Rt,执行动作At
环境:收到action At,估算出 观测 Ot+1和 reward Rt+1
t 不断增加,A不断得到改进。
 
 

二、基本概念

包括:reward、action、state、agent、environment、policy、value、model。
 
 
 
执行action要达到最大化期望reward,直到算法最终收敛,学到的策略就是一系列 action 的序列数据。
 
 
 
state:指当前agent所处的状态。
 
 
agent 就是要学习动作的对象。
环境就是agent所处的且能够给出奖惩的世界。
(如果将env换成agent,则形成了双agent博弈的模型)
 
 
区分不同语境下的reward,一种是每个时间t的reward,另一个是长期平均的reward。前者用于刺激下次动作的改变,后者用于评估动作训练的结果。
 
 
 
 
 
下一节:课程要求
 
[展开全文]

授课教师

暂无教师
微信扫码分享课程