UCL汪军教授：多智能体机器学习-AI研习社

与UCL授课进度同步，每周五更新

人工智能已经在围棋、图像识别和语音识别等领域达到甚至超越了人类专家水平，但智能化的机器离我们仍然很远。要想实现通用智能，AI智能体必须学习如何在共享环境中与「他人」进行互动，由此产生了人工智能的一个前沿研究领域：多智能体学习。

很多领域中都存在多智能体学习的问题，在这些问题中，多个智能体不仅能与环境相互作用，而且彼此相互作用，由此造成的复杂和多变也为研究带来了诸多挑战。多智能体学习在现实生活中有着广泛的应用，比如无人机群的控制、仓库机器人的合作、分布式传感器网络/交通的优化、机器竞标，等等。

课程介绍

本课程基于伦敦大学学院（UCL）计算机系2020-2021学年度课程Multi-agent Artificial Intelligence (20/21)，主要介绍多智能体机器学习。课程将机器学习的研究与博弈论和经济学的研究相结合，包括博弈论、拍卖理论、算法机制设计、多智能体（深度）强化学习等主题，同时还将讨论相关的实际应用，包括在线广告、在线拍卖、生成模型的对抗训练、机器人规划，以及玩在线游戏的智能体。

本课程适合计算机科学以及机械和航空工程等专业的本科生、研究生，从事机器学习、多智能体协同控制等领域的工程技术人员。

本课程由RLChina（微信公众号：RLCN）制作，RLChina是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

课程为英文授课。

讲师简介

汪军，伦敦大学学院（UCL）计算机系教授，阿兰·图灵研究所 Turing Fellow，华为诺亚方舟实验室决策推理首席顾问。主要研究智能信息系统，包括机器学习、强化学习、多智能体，数据挖掘、计算广告学、推荐系统等。已发表了 120 多篇学术论文，出版两本学术专著，多次获得最佳论文奖。

课程目录

一、博弈论基础介绍

1.1 博弈论的基本概念

1.2 纯策略纳什均衡

1.3 混合策略纳什均衡

1.4 纳什均衡的存在性证明

1.5 古诺双寡头模型

二、更多博弈形式

2.1 重复博弈（Repeated Games）

2.2 拓展形式的博弈(Extensive-form game)

2.3 位势博弈（Potential Game）

三、纳什均衡

3.1 零和博弈及纳什均衡计算

3.2 极大极小博弈（Minmax Game）介绍

3.3 纳什均衡的线性规划解法

3.4 线性互补问题

3.5 Lemke–Howson 算法求解线性互补问题

四、贝叶斯博弈与拍卖理论

4.1 贝叶斯博弈（Bayesian Game）

4.2 在线拍卖的设置与步骤

4.3 拍卖模式：一口价拍卖与密封式拍卖

4.4 竞价策略与纳什均衡

五、神经网络与深度学习

5.1 深度学习基础

5.2 词嵌入

5.3 深度神经网络层

5.4 卷积神经网络

5.5 循环神经网络

5.6 网络信息检索

5.7 表征学习

5.8 深度强化学习

六、基于值函数的单智能体强化学习

6.1 强化学习基础

6.2 Model-based 方法：马尔科夫决策过程，动态规划求解

6.3 Model-free方法：蒙特卡洛，时序差分，Q-learning

6.4 深度强化学习实例：Atari，Alpha Go

七、多智能体强化学习（一）

7.1 多智能体强化学习介绍及基本概念

7.2 值迭代与策略迭代

7.3 均衡学习：纳什-Q，Minmax-Q，Friend-Foe-Q

7.4 最佳对策：JAL与对手建模，梯度提升，Wolf-IGA

八、基于策略的单智能体强化学习

8.1 策略梯度

8.2 策略梯度理论证明

8.3 函数近似

九、多智能体强化学习（二）

9.1 策略预测的IGA

9.2 动态系统的梯度提升优化

9.3 虚拟博弈

9.4 理性学习

9.5 演化博弈论

9.6 复制动态方程

十、多智能体强化学习（三）

10.1 Emergent behaviours

10.2 智能体建模

10.3 多智能体通信

10.4 多智能体合作

10.5 Many-agent 学习