DeepMind 近期发布了他们开发的 MuZero 算法,并强调其在 57 款不同的 Atari 游戏上达到了超人类的水平。
能玩 Atari 游戏的 强化学习 智能体非常值得研究,这些游戏不仅视觉状态空间非常复杂,而且与国际象棋、日本 将棋 、 围棋 不一样的是,在 Atari 游戏中,智能体无法使用完美模拟器(perfect simulator)来执行规划。
「完美模拟器」的思想是推动 AlphaGo 及 AlphaGo Zero 和 AlphaZero 等后续进展的关键限制条件之一。这使得这些智能体受限于国际象棋、日本 将棋 、 围棋 ,对机器人控制等现实世界应用而言没什么用处。
以 马尔可夫决策过程 (MDP)为框架,可以将 强化学习 问题描述为:
国际象棋、日本 将棋 、 围棋 智能体带有一个知道如何去玩的模拟器
AlphaGo、AlphaGo Zero、 AlphaZero 和 MuZero 系列算法对这一框架进行了扩展——使用了规划(planning),如下图所示:
通过整合规划来扩展 强化学习 问题框架。
DeepMind 的 AlphaGo、AlphaGo Zero 和 AlphaZero 使用了「(动作, 状态) → 下一个状态」这样的完美模型,以蒙特卡洛树搜索(MCTS)的形式执行前向规划。在策略映射和价值估计方面,MCTS 能为深度神经网络提供完美的补充,因为它能平均化这些函数近似中的误差。MCTS 为 AlphaZero 在下国际象棋、日本 将棋 、 围棋 方面提供极大的帮助,让其可以在完美的环境模型中执行完美的规划。
MuZero 利用 MCTS 规划的方式是通过学习一个动态模型,如下图所示:
MuZero 的蒙特卡洛树搜索。
MuZero 实现有参数模型映射 (s,a) → (s』, r) 的基于模型的 强化学习 方法是不完全重建 s' 处的像素空间。可以将其与下面来自 Ha and Schmidhuber 的 World Models 的图像相对照:
基于模型的 强化学习 在模型中重建像素空间的示例,来自:https://worldmodels.github.io/。
来自 MuZero 的规划算法在 Atari 领域内非常成功,对 强化学习 问题具有非常巨大的应用潜力。本文将解释 AlphaGo、AlphaGo Zero、 AlphaZero 和 MuZero 一路以来的演化历程,以便让你更好地理解 MuZero 的工作方式。这里有一段解释视频: