首页 AI学术青年与开发者社区

基于概率 和 基于价值

基于概率是强化学习中最直接的一种, 他能通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动, 所以每种动作都有可能被选中, 只是可能性不同. 而基于价值的方法输出则是所有动作的价值, 我们会根据最高价值来选着动作, 相比基于概率的方法, 基于价值的决策部分更为铁定, 毫不留情, 就选价值最高的, 而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到他.

我们现在说的动作都是一个一个不连续的动作, 而对于选取连续的动作, 基于价值的方法是无能为力的. 我们却能用一个概率分布在连续动作中选取特定动作, 这也是基于概率的方法的优点之一. 那么这两类使用的方法又有哪些呢?

比如在基于概率这边, 有 Policy Gradients, 在基于价值这边有 Q learningSarsa 等. 而且我们还能结合这两类方法的优势之处, 创造更牛逼的一种方法, 叫做 Actor-Critic, actor 会基于概率做出动作, 而 critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程.

[展开全文]

强化学习基本要素和概念

  • There is no supervisor, only a reward signal
  • Feedback is delayed, not instantaneous
  • Time really matters (sequential, non i.i.d data)
  • Agent's actions affect the subsequent data it receives

At each step t the agent:

  • Executes action At
  • Receives observation Qt
  • Receives scalar reward Rt

The environment:

  • Receives action At
  • Emits observation Qt+1
  • Emits scalar reward Rt+1

t increments at env. step

Reward: 记作Rt,表示第t个time step的返回奖赏值,所有强化学习都是基于reward假设的,reward是一个标量。

Action: 来自动作空间,agent对每次所处的state以及上一状态的reward确定当前要执行什么action。执行action要达到最大化期望reward,直到最终算法收敛,所得的policy就是一系列action的sequential data。

State: 就是当前agent所处的状态。

Agent: 执行动作的智能体,在RL中,算法本身就是agent。

Environment: 智能体所经过的世界。环境将智能体的当前状态和操作作为输入,并将代理的奖励和下一个状态作为输出返回。

Policy: 策略是智能体根据当前状态确定下一个操作所采用的策略。它将状态映射到行为,即承诺最高回报的行为。可分为确定策略和随机策略。

Value: 长期的平均总奖赏,想对于短期的reward。因为RL基本可以总结通过最大化"reward"来得到一个最优策略。所以为了很好地刻画包括未来的当前reward值最大化(即从当前时刻开始一直到状态达到目标的总reward最大)。因此构造值函数(value function)来描述这一变量。

Model: 用来预测环境接下来会干什么,即在这一状态的情况下执行某一动作会达到什么样的状态,这一动作会得到什么reward,Agent的目标就是通过训练学到这一个模型。

 

 

 

[展开全文]

强化学习是机器学习的一个分支,与其他类型机器学习的区别:

  • Thers  is no supervisor, only a reward signal.
  • Feedback is delayed, not instantaneous.
  • Time realy matters(sequential).
  • Agent's action affect the subsequent data it receives.
由于只有激励数据,一般来说,强化学习需要通过不停的试错来获取更高的得分。
 
  • Reward:通常被计作Rt,表示第t个time step的激励值。
  • Action:来自于动作空间,智能体对每次所出的状态、以及上一状态的的激励值来确定当前要执行什么动作。执行动作要达到最大化期望激励,知道算法收敛。最终得到的策略就是一系列行为的序列数据。
  • Action:当前智能体所处的状态,不同的情况状态差别很大。
  • Agent:执行动作的智能体。在强化学习算法中算法本身就是一个智能体。
  • Environment:智能体所处的环境。环境将智能体的当前状态和操作作为输入,并将代理的奖励和下一个状态作为输出返回。
  • Policy:是智能体根据当前状态确定下一个操作所采用的策略。它将状态映射到行为,即承诺最高回报的行为。分为确定策略与随机策略。从数学角度出发就是一个函数。
  • Value:长期的平均的总奖赏,相当于一个短期激励。因为强化学习基本上可以总结为通过最大化激励来得到一个最优策略。所以为了很好地客户使包括了未来的当前激励值最大(即从当前时刻开始,移植到状态达到目标的的总激励值最大)。因此构造了值函数来描述这一变量。
  • Model:就是用来预测环境接下来会干什么,即在这一状态的情况下执行某一栋做会达到什么样的状态,这一个动作会得到什么激励。
[展开全文]

1.传统机器学习相比于强化学习而言,无监督学习由于只能对现有的数据做一定意义的聚类,监督学习需要大量的人工标签构建训练集,因此有一定的局限性。

2.强化学习适用于序列决策的任务。

3.任何一个问题能简化为一个决策问题,都能通过强化学习解决。

4.计算机集群的资源管理、控制也可适用于强化学习。

5.强化学习是智能体‘’agent‘’以试错的方式进行学习,通过与环境进行交互获得的奖励指导行为,目标是使智能体获得最大的奖励。

6.所谓强化学习,是指从环境状态到行为映射的学习,以使系统行为从环境中获得的积累reward(奖励值)最大。

7.在强化学习中,算法来把外界环境转化为最大化奖励量的方式的动作,算法并没有直接告诉agent要做什么或者要采取哪个动作,而是agent通过看哪个动作得到了最多的奖励来 自己发现。

8.agent的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。

9.强化学习与其他机器学习不同之处为:

没有label,只有reward;反馈有延时,不是能立即返回;数据是序列化的,数据与数据之间是有关的,二不是相互独立的;agent执行的动作会影响之后的数据。

10.强化学习的关键要素有:environment、reward、action、state。有了这些要素才能建立一个强化学习模型。

11.强化学习解决的问题是:针对一个具体问题得到一个优化的policy,使得在该策略下获得的return最大。

12.所谓的policy其实就是一系列action,也就是连续数据。

 

[展开全文]

1.奖励Rt是个标量

2.action是来自动作空间,agent对每次所处的state用以及上一状态的reward确定当前要执行什么action。执行action要达到最大化期望reward,直到最终算法收敛,所得的policy就是一系列action的连续数据。

3.输入量为当前的状态和操作;输出量为下一时刻的状态和奖励。

4.state:智能体所处环境的状态

action:智能体所执行的动作

reward:环境对智能体的评价

environment:智能体所处的环境

agent:本体,算法

5.agent与环境的交互接口包括action、reward和state。

6.每一步agent根据policy选择一个行动执行,然后感知下一步状态和及时回报,通过经验再修改自己的策略。

7.agent的目标就是最大化长期回报,仅考虑即时奖励是显然不够的。

8.return和reward的区别在于:回报是奖励的积累。

9.policy是指agent在特定状态下的行为依据,是 从state到action的映射。分为确定策略和随机策略。

10.

[展开全文]

1.马尔科夫决策过程与强化学习的关系:能构造MDP就可以用强化学习。

2.模型预测:针对值

3.模型控制:获得最优策略

4.Pss'a的含义为当前agent所处的状态s下,经过动作a后状态转移至s'的概率大小。

5.Pss'a转移至s’也是存在一定随机性的。

6.只考虑下一步动作带来的影响,而不考虑之后一些列动作带来的影响,虽然简单,很多情况下就是最优解。

7.策略为在每个可能的状态,agent应该采取的动作概率的分布。

8.策略是强化学习的核心部分,策略的好坏最终决定了agent的行动和整体性能。

9.策略可以是随机的,也可以是确定的。

10.一个策略函数定义为π:S>A,即输入为状态S,输出为 A

11.策略的实质为,告诉agent状态S下该执行的动作。

12.策略可分为确定策略和不确定策略。

[展开全文]

1.强化学习其运行过程 :S0———》A0——》S1、R1——》A1..........

2.强化学习过程可以近似看作一个有监督学习的过程。

3.强化学习的过程不能将其看作为优化每一步的最大奖励值。

4.一般,在t时刻,agent的目标时执行动作At并且是Gt最大化。

5.影响因子y=1时代表当前动作对后续影响的效果是一样的,y=0时代表贪心算法,只对当前动作进行评分。

6.在允许策略集合中找出使问题具有优化效果的策略,称为最优策略。

7.可以将一个MDP模型恢复为MP和MRP。

8.策略具有随机性,状态转移同样具有随机性。

9.Rt+1可以认为为进入St+1后立刻得到了Rt+1.

10.正是由于Pss'a的存在,才使得R是一个期望值。

11.强化学习往往具有延迟回报的特点,如果第n步输掉了棋,那么只有状态sn和动作an获得了即时奖励,前面的所有状态立即奖励均为0。

12,之前的任意状态s和动作a,即时奖励函数无法说明策略的好坏。

13.对于当前动作的影响,需要定义值函数来表明当前状态下策略的长期影响。

 

[展开全文]

1.马尔科夫奖赏过程的表示量有:

a)S状态集

b)P状态转移概率矩阵

c)R奖赏函数

d)y折扣系数

2.下一时刻的状态至于上一时刻的状态有关

3.终止状态只进不出

4.瞬时奖励是评价当前动作的好坏,值函数是评价当前状态的好坏

5.贝尔曼方程建立在状态矩阵已知的条件下求解值函数大小。

6.状态值函数是指agent在状态st根据策略π采取后续动作所得到的累积回报的期望。

7.状态行为函数是指agent从状态s出发,按照策略π采取行动得到的累积回报的期望

8.某个状态的值函数等于该状态下所有状态行为值函数的加权和。

9.状态行为函数等于该状态、该行为执行后的即时奖励的期望,加上他所导致的所有下一步状态的折减后状态值函数的加权和。

10.贝尔曼方程其实是自身以及相互之间的递推关系。

[展开全文]

1.策略为状态到动作的映射。

2.策略为状态到动作的映射过程中,动作具有不确定性。

3.动态规划的概念为:动态为序列或者时序问题,规划为最优规划。

4.动态规划它是一种算法,用来解答固定问题,满足以下条件:

a)有最优子结构(最优解能分解为好多子问题的解)

b)拥有重叠的子问题(子问题能重复多次且有解)

5.值迭代是针对一个MDP问题对每一个时刻所在的状态进行值函数的估计,直到达到最优值的过程。

6.任何状态的值函数等于即时奖励加下一状态的值函数大小*折扣因子。

7.在当前策略下,一般的任何一个状态的状态值都等于下一时刻的瞬时奖励值与未来折扣之后的状态值的期望值。

8.π》=π’当且仅当某策略的值函数大于该策略的值函数。

9.一个最优策略一定存在 ,但不唯一。

 

[展开全文]

授课教师

暂无教师
微信扫码分享课程