markov decision process;
贝尔曼方程;Q-learning;
deep Q-network;
MCTS;
¥
支付方式
请使用微信扫一扫 扫描二维码支付
请使用支付宝扫一扫 扫描二维码支付
markov decision process;
贝尔曼方程;Q-learning;
deep Q-network;
MCTS;
传感器感知,提取数据特征以及数据结构,作为输入,映射成更高阶的感知
强化学习的目 标,就是对稀疏的奖励数据进行学习,通过从稀疏的人工标定的数据当中获取知识
我们可以将监督学习想象成对真实数据的一种记忆模式,这种模式能够从真实数据中提取出表征。我们可以认为强化学习是一种暴力传播信息的方式,尤其是松散稀疏且基于时间的信息。通过对某些行为赋予奖励点数,以此来固化智能体学习到的知识。
价值函数是对每个状态以及基于这个状态所采取的行动的一种评估。
深度学习能够学习到表征
损失函数是神经网络和Q-Learnging结合的核心,通俗来说就是Q Leanring 通过之前的知识,Q表格来规划接下来的状态和行动变化,然后神经网络通过这个损失函数来学习和评估这个行动计划是否足够好,然后反馈给Q表以如此循环