Deepmind AI在《星际争霸2》血虐99.8%人类,登顶宗师段位
2020-07-09
RTS游戏中,电脑AI=人工智障?
对于大多数游戏玩家来说,游戏内置的电脑AI,似乎都是一个笑话,更应该被称为“人工智障”。
能够和玩家匹敌的电脑AI往往被分配有超越玩家的资源,比方说《红警》里面打十家冷酷的敌人,或是在《魔兽争霸》里打令人发狂的电脑,电脑AI的优势仅来自于远超玩家的资源和造兵速度,或是对AI取消战争迷雾等种种作弊。
这种时候,人类玩家的常见赢法,要不然是通过自己的精心磨练的游戏水平硬刚,要不然就是利用电脑套路的缺陷“走后门”。不管怎样,这都体现了AI预编程的策略并不足以应对灵活狡猾的人类玩家。
比如说这张图,电脑终于学会藏基地这种人类基本操作,玩家露出了欣慰的姨母笑。
原先电脑AI策略的最主要问题在于,如果不作弊(不免除战争迷雾),能从心理上猜测对玩家的单位在哪里、猜玩家在走什么流并针对性地应对、对他们的第一波攻击做出有效反应,这是很难提前编写的东西。
不管是游戏AI的无脑缺陷,还是人类玩家的窃笑,这一切在深度学习(DL)被引入到训练中时戛然而止。
为何专注于攻克星际争霸2?因为极为复杂,高度拟真
星际争霸是一款暴雪出品的经典即时战略(RTS)游戏,以其对战略思维的超强考验、精妙的种族平衡性和极强的可玩性著称,玩家也必须在经济的宏观管理和微观个体的控制之间保持谨慎的平衡。
从星际争霸1到星际争霸2,这款RTS神作一直被列为世界电子竞技的核心项目之一。
2014年暴雪嘉年华,人山人海的星际争霸2比赛
在AI已经玩转国际象棋、围棋和《危险边缘》(英語:Jeopardy!,是由梅夫·格里芬在1964年创建的美国的电视智力竞赛节目)之后,《星际争霸2》将是AI的下一个重大挑战已成为共识。AI巨头们纷纷摩拳擦掌,对科普卢星区的虫海、坦克群和高阶圣堂武士们跃跃欲试。
他们对星际争霸感兴趣是因为它足够复杂,可以模拟现实生活。
用AI打星际争霸的风云人物、纽芬兰纪念大学计算机科学教授David Churchill曾说,“星际争霸太复杂了。能适用于星际争霸的机器人,也能解决现实生活中的其他问题。”
星际争霸中不存在最优策略,AI需要不断探索和拓展更新自己的战略知识。
操作空间巨大,需要同时操作上百个不同的单位,所以可能性的组合空间非常大。
游戏过程很长,需要长期规划。像许多现实世界中的问题一样,因果关系不是瞬间产生的。在游戏早期采取的行动可能在很长一段时间内都不会有回报,所以它会锻炼AI的长线思考能力。
“对人类来说,星际争霸是最难玩的游戏。就像是一个人下象棋的同时还要踢足球。你需要高度集中的注意力、超人般的手指和胳膊、以及超出常人的战略头脑。”
AlphaStar与人类玩家Mana厮杀中
另外,与棋类游戏不同,《星际争霸》中大量的“棋子”对AI构成了巨大的挑战。
AlphaGo下围棋,可能的下法一共有10的170次方,这个数字比整个宇宙中的原子数10的80次方都多。而这对于星际争霸来说简直是小儿科。
星际争霸在每一瞬间都有10的26次方种可能的操作——几乎无法计算。尽管如此,AI被限制于以人类的速度操作,这迫使其通过制定战略来取胜,而不是通过一系列超人类的无敌操作来轰炸其人类对手。
AlphaStar的平均APM只有277,职业玩家则可以达到559。
根据DeepMind团队在《Nature》上发表的一篇论文,星际争霸“已成为人工智能研究的一项重要挑战”,这要归功于它“天生的复杂性和多代理挑战,成就了它在最困难的专业电竞中的持久地位,并且它与现实世界具有很强的相关性”。
那为什么AI在玩星际争霸2这样的复杂游戏?因为复杂游戏是一个对现实的绝佳模拟。
如果AI能在如此复杂的环境中,学会和人一样实时感知、分析、理解、推理、决策并行动,那么AI就可能在多变、复杂的真实环境中发挥更大的作用。
Deepmind的AlphaStar血虐人类,登顶宗师段位
来自Google的DeepMind团队训练出了最强的星际争霸AI AlphaStar,它在战网星际争霸2的一系列盲注游戏(即人类蠢蛋们不知道和他们对战的是AI)上击败了弱小的人类。
它在排位赛中达到了宗师水平,并且在欧洲服务器上的表现超过了99.8%的人类。