王小川：柯洁仍是人类最强但AlphaGo重演了一部进化史

小大

扫描到手机×

2017-05-26 08:57:04 第一财经参与评论()人

昨日柯洁与人工智能“阿尔法围棋” (AlphaGo)三番棋对决中的第二盘打响，最终柯洁不敌阿尔法围棋，第二盘告负，目前双方比分0:2。随后搜狗公司CEO王小川在知乎上发布评论文章称，2017人机大战的意义在于帮助我们重新认识智慧的边界。“帮我们开了眼界，看到我们离最终的生命形态和智慧依然有遥远的距离。”王小川表示，“AlphaGo2.0 告诉我们：如果有合适的条件，完全可能有其他的生命进化路径，以及更不一样的进化结果。”

王小川表示，围棋已经有两千多年的历史，在漫长岁月的琢磨中，围棋理论不断进化，到达了很高的水准，AlphaGo 的获胜，我们大可以解读于“青出于蓝”，毕竟是在人类围棋进化的主路径上又攀高峰。

而 AlphaGo2.0 完全抛弃掉人类这两千年来进化的围棋经验，另寻他径，仅凭两台机器自我对弈中学习和进化，最终不仅赶超了人类进化的速度，还发展出一套截然不同的下棋方法，并且更加接近完美的状态，实现了对人类的碾压，重演了一部围棋的进化史，而且得出了与这两千年来不同的进化结果。

附王小川评论全文：

该来的终于来了。

一年前 AlphaGo 发布，看完论文后我就在知乎上发文预测机器会完胜人类。好些行业朋友不相信，为此我收了很多“智商税”，之后微信发红包一直发到春节才发完。此外我还立了两个断言：一个是 Google 很有可能再研发出 AlphaGo 2.0，摆脱“监督学习”，不再需要人类下围棋的历史数据，而是只通过“增强学习”，两台 AlphaGo 自我对战学习如何下棋，并达到登峰造极的地步。从公开的资料判断，此言中了。这意味着什么呢，又有什么看点呢?

技术重大提升：和 1.0 原理大不同更接近于人

AlphaGo 1.0 是巧妙地混合了三种算法：蒙特卡洛树搜索 + 监督学习 + 增强学习。其中蒙特卡洛树搜索是一种优化过的暴力计算，比 1997 年深蓝的暴力计算更聪明。而这里的监督学习，是通过学习 3000 万步人类棋谱，对六段以上职业棋手走棋规律进行模仿，也是 AlphaGo 获得突破性进展的关键算法。而增强学习作为辅助，是两台 AlphaGo 从自我对战众中学习如何下棋，据悉对棋力提升有限。

12 3 全文共 3 页下一页

关键词：进化史围棋人类重演

王小川：柯洁仍是人类最强 但AlphaGo重演了一部进化史

王小川：柯洁仍是人类最强但AlphaGo重演了一部进化史