王小川：柯洁仍是人类最强但AlphaGo重演了一部进化史(2)

小大

扫描到手机×

2017-05-26 08:57:04 第一财经参与评论()人

根据公开资料推测，此次 AlphaGo2.0 的技术原理与之前有着巨大不同：

1. 放弃了监督学习，没有再用人的 3000 万局棋谱进行训练。这本是 AlphaGo 最亮眼的算法，也是今天主流机器学习不可避免的核心条件：依赖于优质的数据，在这个特定问题下就这么被再次突破了。

2. 放弃了蒙特卡洛树搜索，不再进行暴力计算。理论上，算法越笨，就越需要暴力计算做补充。算法越聪明，就可以大大减少暴力计算。从 AlphaGo 2.0 的“马甲”Master 的历史行为看，走棋非常迅速，约在每 10 秒钟就走棋一步，如此速度很可能是放弃了暴力的计算。

3. 极大地强化了增强学习的作用，之前敲边鼓的算法，正式成为扛把子主力。想想看有多励志：两台白痴机器，遵守走棋和获胜规则，从随机走棋开始日夜切磋，总结经验，不断批评和自我批评，一周后终成大器。

在这样的算法下，AlphaGo 2.0 对计算资源开销极小，把当前棋局输入神经网络，电流流过，输出就是最佳的走棋方案。我猜测如此算法下，有可能仅仅依靠一个 GPU 工作，每一步棋消耗的能源接近人的大脑。

最大看点： AlphaGo2.0 棋风完全脱离人类经验

今年年初，AlphaGo 化身 Master 连胜人类顶尖棋手 60 局。在围棋领域，机器完胜已经变成公认的定论。这导致很多人开始问：这次人机大战还有意义吗?我们的关注点不再是机器是否会赢——而是机器将用什么姿势战胜人类。

AlphaGo 学习了 3000 万步人类棋谱，走棋风格也近似于人。在比赛现场，偶有 AlphaGo 走棋和人的经验不符合，就被评为“愚蠢”，只是在中盘之后发现机器渐渐局面占优最终获胜，为了自圆其说解读为“AlphaGo 中盘逆转”，前两局莫过如此。第三局开始评论者长了教训，开始尊称 AlphaGo 为“阿老师”，有了欣赏和敬畏的心态。这带给围棋界很大的冲击，以前大家认为正确的东西，其实是不正确的。柯洁曾经评价说：“AlphaGo 出现，很多理论都被推翻，再看以前定式变得好笑，亏那么多目就不再是两分。”人类通过数千年实战，总结了围棋理论，然后计算机告诉人类：这些全都是错的。现在在很多比赛上，人类棋手已经开始向机器学习，模仿 AlphaGo 的下法，棋圣聂卫平也曾表示“理论被颠覆了”。

而 AlphaGo2.0 脱离了机器对人模仿，走棋风格也将完全脱离人的定式。在与柯洁的比赛中，会不断出现我们意想不到的走棋，而且这些走棋在教科书中会被认为是低级错误或者完全不可理喻，但凡一个正常的棋手都不会这么玩，但凡一个新手这么玩都会被点拨这样不对。而 AlphaGo2.0 会不断制造这样的局面，关键他还是对的。可想对专业棋手的心里会有多大的震撼：不仅自己这一辈子都没这么想过这么下棋，整个围棋界都没有想过。会不会怀疑自己白活了?会不会反思两千年围棋的发展为什么有这样的瓶颈?还有多少海阔天空等着我们去探索?可等不及我们去探索，计算机就给出了终局的答案，多么惆怅。

关键词：进化史围棋人类重演

王小川：柯洁仍是人类最强 但AlphaGo重演了一部进化史(2)

王小川：柯洁仍是人类最强但AlphaGo重演了一部进化史(2)