科技行者谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

2018年12月10日 科技行者
  • 分享文章到微信

    扫一扫
    分享文章到微信

  • 关注官方公众号-科技行者

    扫一扫
    关注官方公众号
    科技行者

上周末,DeepMind 在《科学(Science)》期刊上发表了一篇通用强化学习算法论文,论文描述了 AlphaZero 如何快速学习三种棋类游戏成为史上最强的棋手。

来源:科技行者 2018年12月10日

关键字:人工智能 AlphaZero 谷歌 DeepMind 围棋 国际象棋 机器学习

2017年年末Google AI 子公司 DeepMind 的研究人员宣布他们的 AI 程序进化到了 AlphaZero,利用自对弈强化学习,在短时间内打败了顶尖的国际象棋和将棋(日本版国际象棋)程序,也就是说,在只知道基本规则的情况下,AlphaZero 靠自对弈精通了围棋、国际象棋和将棋。上周末,DeepMind 在《科学(Science)》期刊上发表了一篇通用强化学习算法论文(预印本PDF),得到了评审编辑的初步确认与更新。论文描述了 AlphaZero 如何快速学习三种棋类游戏成为史上最强的棋手,尽管它仅了解游戏基本规则而没有其它该领域的知识、且无需任何内置指导。

“I can’t disguise my satisfaction that it plays with a very dynamic style, much like my own!(它在对弈中表现出的活力与能量让我感到莫名兴奋,在这一点我们是共通的!)"——加里·卡斯帕罗夫(Garry Kasparov),前国际象棋世界冠军

这种从零开始学习棋类技艺的能力不会受到人类思维方式的束缚,因此催生出一种独特、不同于传统且极具创造力及动态思考风格的对弈方法。国际象棋大师 Matthew Sadler 与女子国际象棋大师 Natasha Regan 在即将于明年1月出版的《Game Changer》一书中对 AlphaZero 的数千盘对弈进行了分析,发现其棋路完全不同于任何以往国际象棋引擎。Matthew表示,“它的出现,就像是带来了古代象棋大师的秘传一般。”

包括世界计算机国际象棋冠军 Stockfish 与 IBM 公司打造的“深蓝”在内的各种传统国际象棋引擎,依赖于大量由顶尖人类棋手提供的规则与启发式方法。这些信息用于解释对弈中的每一种可能性。将棋也是如此,因此相关程序仅适用于一种棋类游戏,只是采用彼此相近的搜索引擎与算法。

AlphaZero的方法完全不同,它利用一套深层神经网络与大量通用型算法取代了手工编写的规则。更重要的是,除了基本规则之外,这些算法中没有预设任何固有方法。

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

图:在国际象棋中,AlphaZero用4小时成功击败Stockfish; 击败将棋世界冠军Elmo只花了2个小时; 而在围棋方面,AlphaZero用30个小时打败了曾经将围棋世界冠军李世石斩于马下的AlphaGo。(备注:每个训练步骤代表着4096个盘面位置)

在学习棋艺的过程中,这套未训练神经网络利用强化学习这一实验与试错流程进行数百万轮自我对弈。最初,其基本就是随意乱下,但随着时间推移,系统会从胜利、失败与平局当中汲取经验,调整神经网络参数,确保自身在未来的选择中做出更加有利的判断。

“Some of its moves, such as moving the King to the centre of the board, go against shogi theory and - from a human perspective - seem to put AlphaZero in a perilous position. But incredibly it remains in control of the board. Its unique playing style shows us that there are new possibilities for the game.(它选择的某些棋步,例如将王移动至棋盘中心,与原有将棋理论明显冲突; 而且从人类的角度看,这可能导致其陷入不利局面。但难以置信的是,AlphaZero仍然牢牢把握着主动权,其独特的棋路让我们意识到将棋中还隐藏着新的可能性。)"——Yoshiharu Habu,职业九段,唯一一位斩获七大将棋赛桂冠的大师

训练完成之后,这套网络将指导蒙特卡洛树搜索(Monte-Carlo Tree Search,简称MCTS)算法选择当前盘面中最有利的走法。在每一步棋中,AlphaZero进行的位置搜索量只相当于传统棋类引擎的极小一部分。以国际象棋为例,AlphaZero每秒只需要搜索6万个位置,Stockfish则需要搜索大约6000万个位置。

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

在训练完成之后,这套系统开始与最强大的传统国际象棋(Stockfish)与将其(Elmo)引擎对抗,甚至与其前代版本AlphaGo来了一场“同室操戈”。

  • 各程序运行在专门设计的硬件上。Stockfish与Elmo需要44个CPU核心(与TCEC世界大赛时的硬件配置相同),AlphaZero与AlphaGo Zero则采用4个第一代TPU与44个CPU核心。第一代TPU的推理速度与英伟达Titan V GPU等商用硬件基本相当,不过二者架构差别很大,难以做出直接比较。

  • 所有比赛时长均为3小时,每步棋额外增加15秒。

最终,AlphaZero在全部比拼中都以大比分胜出:

  • 国际象棋中,AlphaZero打败了206年第9届TCEC世界锦标赛冠军Stockfish——AlphaZero胜出155场,且几率仅为千分之六。为了证明AlphaZero的发挥稳定性,我们还为双方准备了人类常规开盘后的多种残局。在各盘残局中,AlphaZero仍能击败Stockfish。另外,我们也让AlphaZero面对了2016年实际比赛中的真实开局,而其对手则换成近期刚刚进行升级的Stockfish版本以及另一个拥有强大开局走法储备的变体版本。虽然压力很大,但AlphaZero仍然获得了全胜战绩。

  • 将棋比赛中,AlphaZero击败了2017年CSA世界锦标赛冠军Elmo,胜率为91.2%。

  • 围棋方面,AlphaZero击败了AlphaGo Zero,胜率为61%。

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

除了胜负之外,更重要的是AlphaZero在对弈中展现出的风格。仍然以国际象棋为例,AlphaZero在自主学习与训练中就自行发现了不少常见的传统技巧,例如开口、保王以及列兵等。但由于完全不受传统思维的束缚,AlphaZero也发展出了自己的直觉与策略。其提出的一系列极为新颖的想法,大大扩展了几个世纪以来人类对于国际象棋策略的理解。

“Chess has been used as a Rosetta Stone of both human and machine cognition for over a century. AlphaZero renews the remarkable connection between an ancient board game and cutting-edge science by doing something extraordinary.(一个多世纪以来,国际象棋一直被视为区分人类与机器人认知能力的罗塞塔石碑。AlphaZero拥有卓越的表现,让我们开始从新的角度审视古老棋类与前沿科学之间的紧密关联。)”——Garry Kasparov,前国际象棋世界冠军

AlphaZero的棋路给棋手们留下了深刻的印象。Matthew Sadler表示,“它的走法拥有强烈的目的性与攻击性,且一直将矛头指向对方的王。”在此基础上,AlphaZero还在对抗中极具动态能力,包括尽可能提高我方棋子的灵活度与可移动性,同时最大程度限制对方棋子的灵活度与可移动性。同样值得一提的是,现代棋艺理念中认为所有棋子具有价值,因此某一选手棋盘上棋子价值总高更高,则表明其在对弈中占据优势。与AlphaZero也并不太重视各种棋子的具体价值,而更倾向于在开局阶段通过牺牲部分棋子获得中远期竞争优势。

Matthew评论称,“它在各种棋子类型及位置上都表现出这种强烈的价值取向,这无疑令人印象深刻。”他同时观察到,AlphaZero会在开局阶段非常刻意地选择“与人类高度相似的棋步。”

Matthew还提到,“传统引擎非常稳定,几乎不会出现明显的失误。但在没有可供参考的具体解决思路时,其往往有点无所适从。相比之下,AlphaZero能够在这样的情况下表现出「感觉」、「洞察」与「直观」等倾向。”

“The implications go far beyond my beloved chessboard... Not only do these self-taught expert machines perform incredibly well, but we can actually learn from the new knowledge they produce.(这种影响绝不仅限于我最深爱的棋盘……这些自我学习的专业机器不仅棋艺超群,也能够让我们从其产生的新知识中得到启发。)"——Garry Kasparov,前国际象棋世界冠军

这种其它传统棋类引擎所不具备的独特能力,给众多棋类爱好者们带来了新的思路与启发。Magnus Carlsen与Fabiano Caruana在最近的世界国际象棋锦标赛当中就采取了类似的战略。Natasha Regan在《Game Changer》一书中提到,“对AlphaZero、各类顶级国际象棋引擎乃至顶级大师的棋路进行分析,确实是件令人着迷的事。AlphaZero有可能成为整个棋坛的重要学习工具。”

不止是AlphaZero,AphaGo在2016年与传奇大师李世石对阵时同样表现出类似的惊艳棋步。在这轮比赛中,AlphaGo拿出了不少极具创造力的表现,特别是在第二场比赛中仅用37步就快速胜出——这彻底颠覆了人类几百年来对围棋的理解。李世石本人在内的众多棋手也开始进行深入研究。在对第37步棋进行评论时,李世石说道“我一直认为AlphaGo属于一种以概率为基础的计算工具,毕竟它终究只是一台机器。但在看到这一步后,我的看法发生了改变。必须承认,AlphaGo确实具有创造力。”

与围棋类似,我们对AlphaZero在国际象棋中表现出的创造力同样感到兴奋。自计算机时代开始以来,国际象棋一直是人工智能面临的重要挑战之一。巴贝奇、图灵、香农以及冯-诺依曼等众多先驱都在努力寻找能够解决国际象棋难题的方案。AlphaZero的出色之处,在于它的用途不限于国际象棋、将棋或者围棋。为了解决各种现实问题,我们要求智能系统拥有强大的灵活性并能够适应不同新情况。虽然我们在这方面取得了一定进展,但问题在根本层面仍然没有得到克服。现有智能系统虽然能够以极高的标准学会特定技能,却仍无法处理哪怕只是做出了略微调整的任务。

AlphaZero能够掌握三种不同的复杂棋类项目——甚至有望搞定一切可提供完美信息的项目——这代表着我们在实现通用型智能系统方面迈出了重要一步。就此来看,单一算法完全有可能在不同的规则束缚之下学习并发现新的知识。另外,尚处于早期发展阶段的AlphaZero已经能够带来创造性的见解; 再加上我们在AlphaFold等其它项目中得出的激动人心的成果,如今我们对于建立通用学习系统开始充满信心。总结来讲,我们也许能够发现更多新型解决方案,并最终克服那些最为重要、最为复杂的科学问题。

【注】谷歌论文“A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play”下载方式:关注科技行者微信公众号(ID:techwalker)回复“围棋”,即可获取。本论文由David Silver、Thomas Hubert、Julian Schrittwieser、Ioannis Antonoglou、Matthew Lai、Arthur Guez、Marc Lanctot、Laurent Sifre、Dharshan Kumaran、Thore Graepel、Timothy Lillicrap、Karen Simonyan以及Demis Hassabis共同完成。