腾讯揭秘《主宰名誉》AI如何击败职业选手
在今年八月份于吉隆坡举办的主宰名誉「世界头筹杯」半决赛的特设环境中,腾讯 AI Lab 与天美工作室合作开发的策略协作型 AI「绝悟」一经亮相就在与职业选手的 5V5 对抗游戏当中获得胜利,而在同年的上海 ChinaJoy 现场,「绝悟」也开放了和业余选手 1V1 竞争的体验测试,四天一共进行了 2100 场对抗,最终取得了 99.8% 的胜率。
最近腾讯 AI Lab 和天美工作室联合发表了一篇论文,详细揭秘了「绝悟」取得不败战绩背后的开发故事。
正如研究人员在论文当中指出的那样,《主宰名誉》这类实时战略 MOBA 游戏不同于传统棋盘游戏和雅达利游戏,前者需要更高难度的复杂操作,所处的游戏环境也会更加复杂。以《主宰名誉》为例,一局游戏当中可能会涉及 10 ^ 600 种游戏可能性以及 10 ^ 18000 中可能的游戏操作,并且这还只是基础,AI 还需要在 MOBA 游戏当中发动 GANK、防御、诱导对手、补刀等,而且还可能涉及到复杂的技能连招。
腾讯的研究人员通过系统编码图像特征和游戏状态信息,将游戏中的不同单元和敌方目标以数字的形式表示,这一框架在总共 60 万个处理器和 1064 张显卡(包括NVIDIA Tesla P40s 和 NVIDIA V100s)上运行,处理了 16000 个包含非隐藏的单位属性和游戏信息。而训练一名英雄需要用到 48 块显卡和 18000 个处理器内核,系统将以每秒 80000 个样本的速度进行持续训练。目前该系统的训练量已经相当于人类花费 500 年所积累的经验。
根据研究人员的说法,「绝悟」在经过系统训练 80 个小时之后便已经「出师」,但其实在经历了 30 个小时的训练之后,「绝悟」就已经具备了打败排位前 1% 玩家的能力。经历完整训练的 AI 将能够在 0.1 秒内 做出反应,这已经相当于一个顶级业余选手的反应。
在和真实玩家的较量中,尽管对手是经验丰富职业选手,但「绝悟」还是取得了场均五个击杀,而场均死亡仅 1.33 的数据。而在今年的 ChinaJoy 活动现场,「绝悟」一共与现场玩家进行了 2100 场 1V1 对战,胜率高达 99.81%,其中 AI 控制的八名英雄中,更是有五名取得了 100% 的胜率。
腾讯研究人员表示,他们计划在不久的将来将其框架和算法开源,以促进对《主宰名誉》等复杂游戏的研究发展。