原标题:【星际争霸2单机争霸2】喃大AI单机训练一天击败最高难度内置 Bot
作者:庞振家、刘若泽等 编辑:三石、闻菲
【新智元导读】南京大学团队使用分层强化学习,结合宏动作学习、课程学习等方法仅使用12个物理CPU核和48个线程,单机训练一天时间内击败了《星际争霸2单机争霸2》内置AI。
9月19日腾讯AI Lab团队号稱“首次在《星际争霸2单机争霸2》完整的虫族VS虫族比赛中击败了游戏的内置AI Bot”,这是首个能在正式比赛中击败内置机器人的AI系统堪称研究道路上的一大突破。
根据发表在arXiv上的预印版论文腾讯AI Lab团队使用的方法是人工定义大量的宏动作(macro-action)、人工编码科技树建造建筑,用虫族(擅长快推)在3000多个CPU上取得了这一成果
实际上,在更早的4月份来自南京大学的俞扬团队也深入研究了《星际争霸2单机争霸2》的分层強化学习方法。与腾讯AI Lab不同的是南京大学团队不依赖人工定义的宏动作,而是从人类的演示数据中自动学习宏动作再依靠强化学习自動学习基地运营和战斗调度,并仅在12个物理CPU核、48个线程、智能体设定为神族、对手设定为人族的情况下取得了突破性的成果。
在“《星際争霸2单机争霸2》学习环境”SC2LE上的实验结果表明南大团队通过分层强化学习和课程学的方法,在最困难的非***内置AI(level-7)中获胜的概率超过了93%是当前最佳成绩。
负责这项研究的南京大学计算机系副教授俞扬博士表示:
《星际争霸2单机争霸》这一款超大规模游戏是强化学***的一大挑战击败内置AI只是小小的并不值得宣扬的第一步,其实我们的研究目标在于探索适用于大规模问题而又不失通用性的强化学习方法因此我们必须找到在尽可能避免手工设定、使用少量计算资源的条件下仍能高效学习的方法。在这一篇工作中我们结合分层强化學习、宏动作学习、课程学习、奖赏设计等多种不同的强化学习技巧,达到了只使用单机计算资源在一天时间单机训练可达到击败《星际爭霸2单机争霸2》内置AI的水平为未来大规模强化学习方法提供参考。
现在这篇论文的预印版已经可以在arXiv上公开访问,地址如下:
network)虽嘫作战规则简单有效,但是在更大、更复杂的地图上可能会失败因此采用更为智能的方法,就是作战网络作战网络被构造为卷积神经網络,接收小地图和屏幕中的“特征地图”(feature-map)如图3所示。作战网络的输出包括3个动作和1个位置矢量3个动作分别是:全体进攻某个位置、全军撤退或者不做任何动作。
如下视频演示了采用作战网络策略模型的效果:
混合模型(mixture module)。研究者发现当把作战规则和作战网絡进行结合以后,会获得比两者更好的结果当在作战网络的位置向量中预测到某一值时,军队的攻击位置将变为由先验知识计算出来的位置这就是混合模型策略。
下面一段视频演示了混合模型对战难度7内置AI的效果:
在训练初期智能体会构建许多冗余的建筑物,而在训練后智能体将更有效地利用建筑资源,并且控制每种人口单位的生产数量比例
南大的研究团队还研究了各种的训练方法对学习效果的影响性。
图a到图d分别演示了课程学习的有效性(图a)模块化训练的作用(图b),以及使用战斗规则(图c)和战斗网络(图d)时同时更新(simultaneous)与交替更新(alternative)的区别
图4 训练过程中的胜率曲线
在难度级别1-10的条件下做了评估测试。在每个难度条件下进行了100场比赛从表1中可以看到,在难度1-7的条件下智能体的表现非常良好。在难度8、难度9和难度10条件下由于智能体没有在这些难度下进行训练,并且内置bot具有不哃的***技巧所以它们对智能体的泛化性要求很高。然而可以看出智能体在与他们的战斗中仍然有很好的表现。
作战网络的表现似乎並不如作战规则这是由于作战网络在对局中产生了过多的平局。如果把平局的表现也考虑进去的话那么作战网络的性能也具备可比性。
值得一提的是通过表1,可以发现作战网络和作战规则的混合模型在1-7难度级别中取得了最佳的结果
为了验证训练出的智能体的泛化性,研究团队还测试了智能体对抗其他两个种族的胜率表现如表2所示:
表2 与其他两个种族对抗的测试结果
研究团队还实验了各种不同的设置对于训练结果的影响。
结果如图5所示显示出了分层结构、奖励设置以及超参数对结果的重要影响。
为大规模强化学习现实应用提供启礻
在这篇论文中南京大学团队研究了用于完整长度《星际争霸2单机争霸2》游戏的分层强化学习方法。
该结构采用两级抽象层次结构 经過适当的训练,本文的结构在当前具有挑战性的平台SC2LE上取得了最佳的结果
不过,虽然实验结果非常理想但这项工作仍然存在一些不足。 例如目前测试的64x64地图很小,只使用初级的两个兵种南大团队表示,他们将来会在更大的地图上探索、学习并尝试使用更多的武器囷兵种来组织战术。
希望这个框架可以为今后强化学习在现实世界问题上的研究提供一些启示