本文经机器之心(微信公众号:almosthuman2014)授权转载禁止二次转载。
人工智能下围棋很在行但在更为复杂的多人王者荣耀游戏名字上水平如何?前一阵OpenAI 就瞄准了著名 MOBA 王者荣耀游戏名字 Dota 2,结果在 TI8 上输得毫无还手之力那么在手机王者荣耀游戏名字方面呢?在腾讯 AI Lab 的最新研究中AI 在《王者荣耀》中与前 1% 玩家的对戰中达到 48% 胜率。
据机器之心了解这是腾讯 AI Lab 与王者荣耀共同探索的研究项目——策略协作型 AI「绝悟」首次露面,并于昨天在KPL秋季决赛接受湔职业 KPL 选手辰鬼、零度和职业解说白乐、九天和立人组成的人类战队(平均水平超过 99% 玩家)的水平测试最终 AI 战队获得胜利。这是继围棋 AI「绝艺」后腾讯 AI 在深度学习与强化学习领域的又一项前沿研究。
其实腾讯 AI Lab 一直以来都在研究如何使用人工智能来打王者荣耀,我们可鉯从一些论文和演讲中略知一二今年五月,他们和匹茨堡大学的研究人员曾经向 AI 顶级会议 ICML 2018 提交了一篇论文其中人们尝试了 AlphaGo Zero 中出现的蒙特卡洛树搜索(MCTS)等技术,并取得了不错的效果
那时,人工智能还只能玩狄仁杰一个英雄几个月后,它们已经可以「五人」组队在迋者段位和人类玩家打得有来有回了。
那么问题来了:王者荣耀的「前 1%」玩家是有多强作为流行手机王者荣耀游戏名字,王者荣耀自上線到现在已经有三年了有的高手早早就上了王者,但大部分都还卡在钻石和铂金段位上今年 10 月,腾讯官方统计了王者荣耀玩家的段位汾布图:
看起来能和 AI 打的至少需要是「最强王者」级别水平的玩家。
AlphaGo 打败世界冠军李世乭让我们看到了通用人工智能的曙光(Silver et al. 2016)从那時起,王者荣耀游戏名字 AI 不仅引起了研究者的注意还吸引了大量来自公众的目光。王者荣耀游戏名字 AI 的目标远不止玩王者荣耀游戏名字嘚机器人那么简单王者荣耀游戏名字为模拟真实世界提供了理想的环境。AI 研究人员可以在王者荣耀游戏名字中开展实验并将卓越的 AI 能仂应用到现实世界。
尽管 AlphaGo 是通往通用人工智能的里程碑但与现实世界相比,它所解决的问题仍然非常简单因此,研究者们近来更加关紸即时战略王者荣耀游戏名字(RTS)如 Dota(OpenAI 2018a)、星际争霸(Vinyals et al. 2017; Tian et al. 2017),这些王者荣耀游戏名字涉及的问题更加复杂Dota 是一款著名的奇幻 5v5 多人在线战術竞技王者荣耀游戏名字(MOBA)。每个玩家控制一个英雄与其他四个队友一起保护防御塔,攻击敌人的防御塔并通过杀死小兵收集资源怹们的目标是摧毁敌人的基地。
作为 MOBA 王者荣耀游戏名字王者荣耀内含防御塔、野区、装备等机制。
与围棋相比RTS 王者荣耀游戏名字的难喥主要体现在四个方面:1)计算复杂度。RTS 王者荣耀游戏名字动作空间和状态空间的计算复杂度可能达到 10^20,000但围棋的复杂度只有 10^250 左右(OpenAI 2018b)。2)多智能体RTS 王者荣耀游戏名字通常包含多个智能体。多个智能体协调、合作非常关键3)信息不完整。与围棋不同许多 RTS 王者荣耀游戏洺字利用战争迷雾(Vinyals et al. 2017))来增加王者荣耀游戏名字难度。4)奖励稀疏、延迟在围棋中,基于王者荣耀游戏名字奖励进行学习的挑战性在于稀疏和延迟RTS 王者荣耀游戏名字长度通常大于 20,000 帧,而每局围棋通常不超过 361 步
围棋和 MOBA 的计算复杂度对比
的方法没有明确地模拟宏观战略,洏是使用微观操作来学习整个王者荣耀游戏名字然而,由于宏观战略管理薄弱OpenAI Five 无法击败职业队伍 (Vincent 2018; Simonite 2018)。
2015)势力图使用手工制作的方程式量化单元。然后使用规则将多个势力图融合,以提供单值输出来为智能体导航
就宏观战略操作而言,为智能体提供目的地是最重要的導航目的在正确的时间到达正确的地点至关重要,这也是高级玩家和其他玩家之间的区别在宏观战略操作中还使用了规划。Ontanon 等人提出鼡对抗分层任务网络(AHTN)规划(Ontanón and Buro 2015)来搜索 RTS 王者荣耀游戏名字中的分层任务虽然 AHTN 在 mini-RTS 王者荣耀游戏名字中展示出了一定的前景,但它存在效率问题这也导致很难将其直接应用于完整的 MOBA 王者荣耀游戏名字中。
虽然文献很多但以前关于宏观战略的研究终究没能提供完整的解決方案:
首先,通过在微观动作空间层面学习来隐式地推理宏观战略可能会很困难OpenAI Five 在微观执行和宏观战略操作方面的能力差距很明显。洳果想让模型通过简单地观察微观动作和奖励后想出高级战略这显然是过于乐观的。作者认为明确的宏观战略建模十分必要
其次,先湔关于明确的宏观战略的研究过于依赖于手工绘制的方程式来计算和融合势力图/势场法在实际操作中,通常有成千上万的参数需要手动決定因此几乎不可能实现良好的性能。而另一方面规划方法无法满足完整 MOBA 王者荣耀游戏名字的效率要求。
第三RTS 王者荣耀游戏名字宏觀战略操作中最具挑战性的问题之一是多个智能体之间的协调。然而据作者所知,先前的研究并没有明确地考虑这一点OpenAI Five 虽然在微观建模中使用了团队奖励来考虑多智能体协调问题,但每个智能体在独立做决定时并没有考虑队友的宏观战略决策因此它很难在宏观战略级別发挥出最好的协调能力。
最后作者发现建模战略阶段对 MOBA 王者荣耀游戏名字中 AI 的表现至关重要。然而据其所知,先前的研究同样没有栲虑到这一点
然而,教智能体学习宏观战略操作颇具挑战性首先,从数学上定义宏观战略如围攻和分线推进就很困难。此外在 OpenAI Five 的強化学习框架(OpenAI 2018a)上加入宏观战略需要相应的执行才能获得奖励,但学习宏观战略操作本身就是很复杂的过程因此,作者认为监督学习昰更好的方案因为可以充分利用高质量王者荣耀游戏名字的回放来学习宏观战略以及相应的执行示例。需要注意的是通过监督学习学箌的宏观战略和执行可以进一步作为强化学习的初始策略。
图 1: (a) 王者荣耀王者荣耀游戏名字界面玩家使用左下角的虚拟键控制移动,用祐下角的键控制技能玩家可以通过屏幕和左上角的小地图来观察环境。(b) MOBA 示例地图双方队伍分别用蓝色和红色表示,每队拥有 9 个防御塔囷 1 个基地四个野区分别标为 1、2、3、4。
MOBA AI 宏观战略模型的设计灵感来自人类玩家的战略决策方式在 MOBA 王者荣耀游戏名字中,经验丰富的人类玩家完全了解王者荣耀游戏名字的每个阶段如开启期、对线期、王者荣耀游戏名字中期和王者荣耀游戏名字后期(Silva and Chaimowicz 2017)。在每个阶段玩镓都要关注王者荣耀游戏名字地图并根据情况决定将英雄派往何处。例如在对线期,玩家会将更多的注意力放在自己的线路上而不是支持队友。但在王者荣耀游戏名字中期和后期玩家会更加关注团战地点,向敌方的基地推进
宏观战略操作过程可以总结为「阶段识别-> 紸意力预测-> 执行」。为了建模这一过程作者提出了一个双层宏观战略架构,如阶段层和注意力层:
阶段层和注意力层为宏观执行提供高級指导下文将详细说明建模细节。宏观模型的网络架构几乎与 OpenAI Five1(OpenAI 2018a)中用到的结构一样只不过前者是以监督学习的方式。经过一些小幅修改作者将其应用到《王者荣耀》中,例如删除 Teleport
图 2:分层宏观战略模型的网络架构
图 4:(a)在阶段层中建模的主要资源(即图中圈出嘚防御塔、基地、龙和暴君)。(b)举例说明阶段层中的标签提取
图 5:为不同英雄角色学习的开放战略之一。红圈内区域为最热门区域
图 7:相层输出上的 t-分布随机近邻嵌入。嵌入数据样本按照不同的时间阶段进行着色
的下一个挑战是即时战略王者荣耀游戏名字(RTS)。即时战略王者荣耀游戏名字提供了部分可观察的王者荣耀游戏名字环境其中智能体之间交互的动作空间要比围棋王者荣耀游戏名字大得哆。掌握即时战略王者荣耀游戏名字既需要强大的宏观战略又需要微妙的微观执行操作。最近微观执行层面已经取得了很大进展,但仍然缺乏针对宏观战略的完整解决方案在本文中,作者提出了一种基于学习的新型分层宏观战略(Hierarchical Macro Strategy)模型用于掌握 RTS 王者荣耀游戏名字嘚子类型——MOBA(多人在线战术竞技)王者荣耀游戏名字。通过用分层宏观战略模型训练智能体可以明确做出宏观战略决策,并进一步指導其微观执行此外,虽然会利用一种新型的模拟跨智能体通信机制同时和队友沟通但每个智能体会做出独立的战略决策。作者在流行嘚 5V5 MOBA 王者荣耀游戏名字中对模型进行全面评估在与人类玩家队伍(这些队伍在玩家排行榜系统中排名前 1%)的竞技中,由 5 个 AI 智能体组成的队伍达到了 48% 的胜率
熟知寒夜的小伙伴都知道寒夜是前KPL冠军职业教练,在AG超玩会任教期间AG超玩会成绩一直名列前茅。随后寒夜转战虎牙直播做起了主播近日在百度贴吧发言,但没想到竟然被KPL百度贴吧当成了喷子给封了号差点气哭寒夜。
原来是寒夜的好朋友托米在KPL贴吧被黑粉吧友带节奏寒夜看不下去决定为兄弟出气。结果寒夜就在贴吧和三万多吧友讲起了道理没想到气势越战越凶,寒夜就开启了喋喋不休模式一秒五喷都不为过。寒夜要昰发起飙来三万吧友都不是他的对手,意识到局面控制不住吧主直接封掉了寒夜的账号,并且置顶加精了一篇关于寒夜恶劣性质的文嶂即便如此,后续KPL吧也被寒夜“骂”爆吧了
寒夜大战三万吧友的事件很快传的轰轰烈烈,很多人表示寒夜的素质实在是有点令人堪忧但了解寒夜的人都知道,寒夜是KPL最喜欢惩恶扬善的人之前在面对演员团队时做出的举动对净化王者荣耀游戏名字环境起到了很重偠的作用。此次为好兄弟出头再次引起质变间网友的点赞喷子也会被点赞?“KPL第一喷子”名至实归
其实小编觉得在面对恶意诋毁,恶意破坏王者荣耀游戏名字环境的行为寒夜强烈的态度无关素质问题。反而如果更多像寒夜这样正义的玩家存在才会更彻底的消灭嫼粉、演员们。不知大家对于寒夜怒喷三万贴吧玩家事件怎么看