阿尔法狗再进化！通用棋类AI AlphaZero 8小时完胜象棋、将棋顶级程序

小大

扫描到手机×

2017-12-08 09:32:28 第一财经APP 参与评论()人

在谷歌发起“寻找围棋小先锋”全国青少年围棋推广活动的2天之后，谷歌母公司旗下DeepMind团队再次取得突破性成果，人类在棋类游戏上或许已经无法挑战人工智能。

继今年10月在《自然》杂志上发表论文正式推出人工智能围棋程序AlphaGo Zero后，Alphabet旗下机器学习子公司DeepMind团队近日又发表论文称，最新版本的 AlphaZero 在经过不到一天的训练后，“令人信服地”打败了国际象棋和日本将棋顶尖的计算机程序。

DeepMind称，AlphaGo Zero算法在围棋上实现了超人类的成绩，使用深度卷积神经网络，通过强化学习进行自我对弈训练。此前的的Alpha Go需要与人类进行数千次对弈，从中获取数据，但AlphaGo Zero从零开始，只有空白棋盘和游戏规则，达到了超人的性能，以100-0战胜了曾打败李世乭的Alpha Go。

近日，该团队发文表示，在国际象棋和日本将棋上采用了AlphaGo Zero 的通用化版本AlphaZero(只输入游戏规则，没有输入任何特定领域的知识)。研究显示，通用的强化学习算法，可以实现从零开始，在许多具有挑战性的领域超越人类水平。

该团队在上述三种棋类游戏使用相同的算法设置、网络架构和超参数，为每一种棋类游戏训练了独立的 AlphaZero。训练从随机初始化参数开始，进行了 70 万步(批尺寸为 4096)，使用 5000 个第一代 TPU 生成自我对弈棋局和 64 个第二代 TPU 训练神经网络。

结果显示，在国际象棋中，AlphaZero 仅仅用 4 小时(30 万步)就超过了 Stockfish。在日本将棋中，不到 2 小时(11 万步)，AlphaZero 就超过了 Elmo；在围棋中，AlphaZero 用 8 小时(16.5 万步)超越 AlphaGo Lee((与李世乭对弈的版本)。

Stockfish是2016 年 Top Chess Engine Championship(TCEC)世界冠军。Elmo是 Computer Shogi Association(CSA)世界冠军 Elmo。

人工智能领域的标志性事件是 1997 年深蓝(Deep Blue)击败了人类世界冠军卡斯帕罗夫。在之后的 20 年内，国际象棋的计算机程序水平一直稳定处于人类之上。Deepmind团队称，当前国际象棋最好的程序都是基于强大的搜索引擎，能搜索数百万个位置，利用人类专家手动编写的函数和复杂的特定领域适应性。Stockfish和深蓝这种强大的国际象棋程序也使用了类似的架构。

12 3 全文共 3 页下一页

关键词：谷歌

阿尔法狗再进化！通用棋类AI AlphaZero 8小时完胜象棋、将棋顶级程序

为您推荐：