人工智能学会团队协作，在《刀塔2》5人对决团战中击败人类

小大

扫描到手机×

2018-06-26 14:25:51 参与评论()人

OpenAI Five通过强化学习，与自己的不同版本对战来学习游戏策略。随着时间推进，程序习得的策略与人类玩家所使用的策略很类似，比如通过 “打钱” 找到获取金钱的方法，以及采用游戏中特定的战略角色，并学习如何分路，援队友等策略。

同时，OpenAI Five还拥有计算机的优势，反应时间比人类短，不会错过点击，可以即时和精确地获取数据，如物品清单、英雄的健康状况以及地图上物体之间的距离。而人类玩家必须手动检查或者凭本能判断。

“我们从比赛中能感受到，AI算法间的协作意图似乎是一种非常自然的本能表现。”Brockman说。在《刀塔2》5V5的团队赛中，他们甚至尝试了用一位人类玩家顶替5位“AI玩家”中的一个，而这位替补上场的人类玩家的感觉是：“我能体会到AI队友对我的支援！”

值得一提的是，OpenAI Five作为相互独立的5种算法，它们之间并不存在主动交流机制，除非它们处于同一局游戏中。

《刀塔2》中，AI掌握了哪些技能

在一个实时的《刀塔2》5V5游戏中，每个玩家控制一个英雄。对于AI来说，就需要掌握以下技能：一是长线策略。《刀塔》游戏平均每秒30帧，一场时常45分钟，大概8万tick（编注：在《刀塔2》的游戏中，每个tick，意味着在玩家所运行的游戏能接受的情况下,玩家每秒会接收30次其他玩家的数据）。大部分操作（例如操纵英雄移动）都有单独的小影响，但一些个体行为可能会影响到游戏战略。此外，还有一些策略可能会终结整场游戏。

OpenAI Five的做法是每4帧观察一次，产生了2万个决策。相比之下，国际象棋一般在40步之前就结束了，而围棋大概在150步，但这些游戏每一步都很有策略性。二是局部可观测状态。在游戏中，己方单位和建筑的视野都有限。地图的其他部分是没有视野的，可能藏有敌人和敌方策略。高手玩家通常需要基于不完整数据做推理，以及建模敌方意图。而国际象棋和围棋都是完全信息博弈。三是高维、持续的行为空间。在游戏中，每个英雄能采取数十种行为，而且许多行为要么面向敌方单位，要么点地移动位置。OpenAI Five把这个空间离散到每个英雄17万种可能的操作；不计算连续部分，每tick平均有1000个可能有效行为。而国际象棋的行为数量平均是35，围棋为250。四是高维、连续的观察空间。《刀塔》是在一张包含10个英雄、20几个塔、数十个NPC单位（编注：NPC一般指的是游戏中那些由电脑控制的路人）的地图上操作的游戏，此外还有神符、树、眼卫等。通过与《刀塔2》运营公司Valve的合作，OpenAI Five模型把游戏视为2万个状态，也就代表人类在游戏中可获取到的所有信息。相比之下，国际象棋代表了约为70个枚举值（8x8的棋盘，6类棋子和较小的历史信息）。围棋大概有400个枚举值（19x19的棋盘，黑白2子，加上Ko）。

匹兹堡卡内基梅隆大学的研究员Noam Brown说：“《刀塔2》是一个极其复杂的游戏，能打败强大的业余玩家就已经很不容易了，而且，处理这种大型游戏中的隐藏信息是一个很大的挑战。”

他认为，只要有足够的时间，人类可能就会找出人工智能团队的游戏风格弱点。而对于AI来说，下一个重大挑战将是涉及到交流的游戏，例如《强权外交》和《卡坦岛》，在这些游戏里，玩家需要平衡合作与竞争才能胜利。

首页上一页 1 234 全文共 4 页下一页

404 提示信息

中华军事客户端

中华头条客户端

中华网首页

404

您访问的页面找不回来了！

返回首页

您感兴趣的信息加载中...

人工智能学会团队协作，在《刀塔2》5人对决团战中击败人类

相关报道:

您访问的页面找不回来了！

相关新闻

中国人工智能学会理事长：人与机器人共舞时代，人类是领舞者

DeepMind新论文：人工智能学会像哺乳动物那样抄近路

小米 6X 用人工智能处理器

李彦宏：不担心人工智能控制人类安全是百度第一天条

人工智能会使人类变得愚钝

人工智能在“踩油门”和“踩刹车”中寻平衡

人工智能学会团队协作，在《刀塔2》5人对决团战中击败人类

相关报道:

您访问的页面找不回来了！

相关新闻

中国人工智能学会理事长：人与机器人共舞时代，人类是领舞者

DeepMind新论文：人工智能学会像哺乳动物那样抄近路

小米 6X 用人工智能处理器

李彦宏：不担心人工智能控制人类 安全是百度第一天条

人工智能会使人类变得愚钝

人工智能在“踩油门”和“踩刹车”中寻平衡

李彦宏：不担心人工智能控制人类安全是百度第一天条