AlphaGo之父详解背后的故事：“围棋上帝”是怎样炼成的(2)

小大

扫描到手机×

2017-05-24 16:03:44 第一财经参与评论()人

第一位与AlphaGo对阵的人类职业棋手樊麾对记者感慨，“曾经以为计算机打败职业棋手，一辈子都不会看到，没想到这么快就实现了。”

对 AlphaGo 团队来说，是时候寻找一种更聪明的方法来解开围棋谜题了。

如何训练AlphaGo?

AlphaGo系统的关键是，将围棋巨大无比的搜索空间压缩到可控的范围之内。

为了应对围棋的巨大复杂性，AlphaGo 采用了一种新颖的机器学习技术，结合了监督学习和强化学习的优势。

具体而言，首先是通过训练形成一个策略网络(policy network)，将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。然后，训练出一个价值网络(value network)对自我对弈进行预测，以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准，预测所有可行落子位置的结果。

这两个网络自身都十分强大，而 AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中，实现了它真正的优势。最后，新版的AlphaGo 产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

AlphaGo 如何决定落子?

在获取棋局信息后，AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。

在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后，AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

Demis Hassabis表示，阿尔法狗不仅仅只是模仿其他人类选手的下法，而且在不断创新。

例如，在与李世石第二局里对弈第37步，这一步是Demis 在整个比赛中感到最震惊的一步。

Demis解释道：在围棋中有两条至关重要的分界线，从右数第三根线。如果在第三根线上移动棋子，意味着你将占领该线右边的领域。而如果是在第四根线上落子，意味着你计划向棋盘中部进军，潜在的，未来你会占棋盘上其他部分的领域，可能和你在第三根线上得到的领域相当。

关键词：围棋人工智能柯洁