添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

从α到μ:DeepMind棋盘游戏AI进化史

alpha(α)是希腊字母表的第 1 个字母,代表起点;mu(μ)是第 12 个,代表中途。从书写了传奇的 AlphaGo 开始,DeepMind 一直在不断更新迭代这一系列的新算法,创造了 AlphaGo Zero、AlphaZero 和 MuZero。通用性更强的 MuZero 算法不仅能出色地掌握棋盘游戏,而且还在 57 款不同的 Atari 游戏上达到了超越人类的水平。

本文将简单介绍这些算法的演进历程。未来, DeepMind 能否创造出这一系列的终极算法 OmegaZero 呢?

DeepMind 近期发布了他们开发的 MuZero 算法,并强调其在 57 款不同的 Atari 游戏上达到了超人类的水平。

能玩 Atari 游戏的 强化学习 智能体非常值得研究,这些游戏不仅视觉状态空间非常复杂,而且与国际象棋、日本 将棋 围棋 不一样的是,在 Atari 游戏中,智能体无法使用完美模拟器(perfect simulator)来执行规划。

「完美模拟器」的思想是推动 AlphaGo 及 AlphaGo Zero 和 AlphaZero 等后续进展的关键限制条件之一。这使得这些智能体受限于国际象棋、日本 将棋 围棋 ,对机器人控制等现实世界应用而言没什么用处。

马尔可夫决策过程 (MDP)为框架,可以将 强化学习 问题描述为:

国际象棋、日本 将棋 围棋 智能体带有一个知道如何去玩的模拟器

AlphaGo、AlphaGo Zero、 AlphaZero 和 MuZero 系列算法对这一框架进行了扩展——使用了规划(planning),如下图所示:

通过整合规划来扩展 强化学习 问题框架。

DeepMind 的 AlphaGo、AlphaGo Zero 和 AlphaZero 使用了「(动作, 状态) → 下一个状态」这样的完美模型,以蒙特卡洛树搜索(MCTS)的形式执行前向规划。在策略映射和价值估计方面,MCTS 能为深度神经网络提供完美的补充,因为它能平均化这些函数近似中的误差。MCTS 为 AlphaZero 在下国际象棋、日本 将棋 围棋 方面提供极大的帮助,让其可以在完美的环境模型中执行完美的规划。

MuZero 利用 MCTS 规划的方式是通过学习一个动态模型,如下图所示:

MuZero 的蒙特卡洛树搜索。

MuZero 实现有参数模型映射 (s,a) → (s』, r) 的基于模型的 强化学习 方法是不完全重建 s' 处的像素空间。可以将其与下面来自 Ha and Schmidhuber 的 World Models 的图像相对照:

基于模型的 强化学习 在模型中重建像素空间的示例,来自:https://worldmodels.github.io/。

来自 MuZero 的规划算法在 Atari 领域内非常成功,对 强化学习 问题具有非常巨大的应用潜力。本文将解释 AlphaGo、AlphaGo Zero、 AlphaZero 和 MuZero 一路以来的演化历程,以便让你更好地理解 MuZero 的工作方式。这里有一段解释视频: