当前位置:经济频道首页 > 经济要闻 > 正文

阿尔法狗再进化!通用棋类AI AlphaZero 8小时完胜象棋、将棋顶级程序(2)

2017-12-08 09:32:28    第一财经APP  参与评论()人

在计算复杂性方面,日本将棋比国际象棋要更难。将棋棋盘更大,任何被吃的棋子都可以改变立场,被放在棋盘的其他位置。之前,最强的将棋程序,如世界冠军 Elmo 也是到 2017 年才打败人类世界冠军。这些程序和计算机国际象棋程序采用了相似的算法,基于高度优化的α-β搜索引擎,并针对特定领域进行调整。

AlphaZero则完全不同,使用了一个通用的蒙特卡罗树搜索(MCTS)算法,通过随机的对游戏进行推演来逐渐建立一棵不对称的搜索树。AlphaZero 是一个通用的强化学习算法——最初为围棋设计,在除了给定象棋规则之外没有任何领域知识的情况下,可以在几小时内达到更优的结果,少了几千倍的搜索量。此外,该算法不需要修改就可以应用到更具挑战性的日本将棋上,并再次在数小时内超过了当前最好的程序。

谷歌大脑GoogleBrain负责人Jeff Dean也曾介绍过深蓝和AlphaGo的区别。他称,深蓝是通过蛮力搜索,知道接下来该怎么走。但围棋比象棋复杂,由于其复杂性很难穷尽算法,“如果没有足够的计算能力去探索围棋的世界,那么你需要帮助程序认识游戏过程中的规律以及怎么样才能够像人一样有本能的去思考如何走棋。”

不过,Deepmind团队最新公布的Alpha Zero又在AlphaGo Zero上进行了升级。首先,AlphaGo Zero假设对弈的结果为胜/负两种, 会估计并最优化胜利的概率;而 AlphaZero 则会估计和优化期望的结果,会同时考虑平局或其它可能的结果。

对于围棋而言,旋转棋盘和镜像映射都不会改变其规则。AlphaGo 和 AlphaGo Zero 都运用了这一事实。通过为每个位置生成8次对称,来增加训练数据。 但国际象棋和日本将棋是不对称的,因此AlphaZero不会增加训练数据,也不会在进行蒙特卡罗树搜索算法时转变棋盘位置。

此外,AlphaZero的自我对弈由之前所有迭代过程中最优玩家生成。每次训练后,新玩家的性能与之前的最优玩家对比,如果新玩家以55%的胜率胜出,便取代之前的最优玩家。相反,AlphaZero 只是维护单个神经网络连续更新最优解,而不是等待一次迭代的完成。

最后,AlphaGo Zero 通过贝叶斯优化(Bayesian optimisation)搜索超参数,而 Alpha Zero 对所有的对弈重复使用相同的超参数,无需进行针对特定某种游戏的调整。

DeepMind评估了经充分训练的AlphaZero 在国际象棋、将棋和围棋上分别和与Stockfish、Elmo 和经过 3 天训练的 AlphaGo Zero 进行的 100 场比赛结果,比赛时间控制在一步一分钟。AlphaZero 和 AlphaGo Zero 使用 4 个 TPU 的单个机器进行比赛。Stockfish 和 Elmo 使用 64 个线程和 1GB 的哈希表进行比赛。AlphaZero “令人信服地”打败了所有的对手,没有输给 Stockfish 任何一场比赛,只输给了 Elmo 八场。

关键词:谷歌

为您推荐: