当前位置:经济频道首页 > 经济要闻 > 正文

阿尔法狗再进化!通用棋类AI AlphaZero 8小时完胜象棋、将棋顶级程序

2017-12-08 09:32:28    第一财经APP  参与评论()人

谷歌发起“寻找围棋小先锋”全国青少年围棋推广活动的2天之后,谷歌母公司旗下DeepMind团队再次取得突破性成果,人类在棋类游戏上或许已经无法挑战人工智能。

继今年10月在《自然》杂志上发表论文正式推出人工智能围棋程序AlphaGo Zero后,Alphabet旗下机器学习子公司DeepMind团队近日又发表论文称,最新版本的 AlphaZero 在经过不到一天的训练后,“令人信服地”打败了国际象棋和日本将棋顶尖的计算机程序 。

DeepMind称,AlphaGo Zero算法在围棋上实现了超人类的成绩,使用深度卷积神经网络,通过强化学习进行自我对弈训练。此前的的Alpha Go需要与人类进行数千次对弈,从中获取数据,但AlphaGo Zero从零开始,只有空白棋盘和游戏规则,达到了超人的性能,以100-0战胜了曾打败李世乭的Alpha Go。

近日,该团队发文表示,在国际象棋和日本将棋上采用了AlphaGo Zero 的通用化版本AlphaZero(只输入游戏规则,没有输入任何特定领域的知识)。研究显示,通用的强化学习算法,可以实现从零开始,在许多具有挑战性的领域超越人类水平。

该团队在上述三种棋类游戏使用相同的算法设置、网络架构和超参数,为每一种棋类游戏训练了独立的 AlphaZero。训练从随机初始化参数开始,进行了 70 万步(批尺寸为 4096),使用 5000 个第一代 TPU 生成自我对弈棋局和 64 个第二代 TPU 训练神经网络。

结果显示,在国际象棋中,AlphaZero 仅仅用 4 小时(30 万步)就超过了 Stockfish。在日本将棋中,不到 2 小时(11 万步),AlphaZero 就超过了 Elmo;在围棋中,AlphaZero 用 8 小时(16.5 万步)超越 AlphaGo Lee((与李世乭对弈的版本)。

Stockfish是2016 年 Top Chess Engine Championship(TCEC)世界冠军。Elmo是 Computer Shogi Association(CSA)世界冠军 Elmo。

人工智能领域的标志性事件是 1997 年深蓝(Deep Blue)击败了人类世界冠军卡斯帕罗夫。在之后的 20 年内,国际象棋的计算机程序水平一直稳定处于人类之上。Deepmind团队称,当前国际象棋最好的程序都是基于强大的搜索引擎,能搜索数百万个位置,利用人类专家手动编写的函数和复杂的特定领域适应性。Stockfish和深蓝这种强大的国际象棋程序也使用了类似的架构。

关键词:谷歌

为您推荐: