炼数成金 门户 商业智能 AlphaGo 查看内容

星际争霸2人机大战在即,DeepMind和暴雪发布机器学习工具包

2017-8-11 09:59| 发布者: 炼数成金_小数| 查看: 21187| 评论: 0|原作者: 陈翔宇|来自: DeepTech深科技

摘要: 作为谷歌旗下专攻人工智能的子公司,DeepMind存在的意义就是“突破人工智能的边界,开发可以解开复杂问题的系统”。而为了衡量这一目标,DeepMind往往会选择在人类擅长的领域中挑战人类(并胜之)。而在雅达利(Atar ...

工具 模型 存储 机器学习 人工智能 DeepMind

作为谷歌旗下专攻人工智能的子公司,DeepMind存在的意义就是“突破人工智能的边界,开发可以解开复杂问题的系统”。而为了衡量这一目标,DeepMind往往会选择在人类擅长的领域中挑战人类(并胜之)。

而在雅达利(Atari)游戏和围棋完胜人类较高级选手之后,DeepMind的人工智能将在星际争霸2中对战人类。


星际争霸2(Starcraft II)是由美国著名游戏公司暴雪娱乐(Blizzard Entertainment)推出的一款以星际战争为题材的即时战略游戏。而就在今天,DeepMind和暴雪同时在各自的官网上正式推出合作开发的星际争霸2机器学习工具组:SC2LE(星际2学习环境)。

在其官博文中,DeepMind表示,SC2LE将包括:

一个由暴雪开发的机器学习API,为研究人员和开发者们提供接入游戏的端口。其中将首次完整包含为Linux系统开发的工具。(GitHub 地址:https://github.com/Blizzard/s2client-proto)

DeepMind的工具集PySC2的开源版,让研究人员可以轻松地在各自的模型中使用暴雪的特征层API。(GitHub 地址:https://github.com/deepmind/pysc2)

一系列小游戏,让研究人员可以对自己系统的性能进行真实的测试。

一个含有6万5千局匿名游戏的数据集,并将在接下来的几周里扩展至50万局游戏以上。

一篇介绍整个环境并提供基线成绩的论文。基线成绩是由小游戏,从游戏回放进行的监督学习,以及与星际2 自带的电脑对手进行单挑的结果得出的。(论文地址:https://deepmind.com/documents/110/sc2le.pdf)

DeepMind与暴雪已经进行了长期的合作,双方希望通过这些工具,帮助研究人员加快星际争霸2AI的开发速度。


继围棋之后,DeepMind为什么要选择星际争霸2这款游戏为下一个目标呢?

这就要从头说起了。在读的各位七零、八零、以及九零后读者应该对星际争霸系列的第一个游戏——星际争霸(Starcraft)十分熟悉。毕竟,这款游戏当年那是火的一塌糊涂,常年在我国大街小巷的各种网吧里都有着大量的玩家,甚至在隔壁韩国的电竞界更是一统江山。

这款游戏极受欢迎的原因就是在于其策略性、竞争性,以及更为重要的易学难精的特质。毕竟,没有人愿意花时间钻研一个可以轻松掌握的游戏。

作为其续作,星际争霸2也继承了这些特性,并且同样火爆。它有着海量的玩家基础,并且每年都会举办大量的比赛。2016年的星际2世界杯(WCS)冠军奖金甚至高达50万美元。这意味着,每时每刻都有着大量的电竞大师,为了赢得比赛奖金而努力钻研游戏策略和技术。对于DeepMind来说,他们都是潜在的陪练对象(而且还是来自全球各国,免费的线上陪练啊)。

星际争霸2的这些特质,恰恰是人工智能在创新之路上需要挑战的。其中最核心的就是星际争霸2作为“即时战略”游戏中的“即时”和“战略”。

就拿“即时”来说。或许对于人类,星际2的那300多个基础操作的“操作空间”(Action Space)并不庞大。但是对于机器,星际2的分级操作,外加“升科技”所带来指令的变化,再加上地图的体积,其操作空间是无穷大的。比如“农民建房子”这个简单的行动就有6个不同的步骤:点击滑动鼠标选择单位,B选择建造,S选择供给站,滑动鼠标选择位置,点击建造。仅在一个84x84的屏幕上,机器的操作空间有大约1亿个可能的操作。面对着如此大的操作量,机器该如何有效的进行即时控制?
图丨来自DeepMind官博的农民建房子动图

这正是DeepMind和暴雪所推出的工具试图解决的。DeepMind表示,其PySC2环境包装可以为AI玩家提供一个“灵活又简单的界面”。在初版的工具中,游戏中的每个元素,比如每种单位,血量,地图上可见的部分等都会拥有一个单独的特征层。这意味着研究人员们可以针对不同的特征(元素)进行开发和优化,有效的提高AI玩家的即时控制能力。

当然,星际2 还有一些难题暂时没有技术手段解决,比如“战略”。作为一个战略游戏,很多时候,玩家做出的决定往往只会在十几甚至几十分钟之后才会产生效果。因此,AI玩家需要学会计划。

此外,在游戏中,由于玩家只能看到自己的那一部分地图(俗称“视野”),他们对整场游戏局势的信息是不完整,不对称的。所以,任何信息都是珍贵的,因为它们可能泄露对手的重要信息,并引导出相对的回应。然而,这些信息往往只有在一段时间之后才会有用。比如看到某种单位,并在几分钟之后看到另外一种单位,从而猜出对方的战术。有些信息也会让你改变自己的战术,比如生产相克的单位。这意味着,AI玩家必须能够有效地存储和回忆起所有遇到的信息,并根据有限的信息进行“猜测”和判断。


因此,为了让AI学会“战略”,它必须拥有“计划”和“记忆”的能力。“存储是至关重要的”,DeepMind星际2项目的负责人Oriol Vinyals说道。而由于游戏的长度,DeepMind善用的加强学习却并不适合星际2,“我现在做出的操作可能在很久之后才有后果”,Vinyals说道。由于现有的技术手段无法攻克这一难题,DeepMind希望降低开发星际2 AI的门槛,集众人之力开发出新的技术手段,解决“战略”难题。

至于新的技术突破防线,DeepMind认为,在继续开发深度加强学习之外,模仿学习(Imitation Learning),序列预测(Sequence Prediction),以及长期记忆(Long Term Memory)将会有效的加强星际2 AI的策略学习能力。而暴雪所提供的数十万局游戏回放,以及其线上战网中大量的玩家,将成为星际2 AI较佳的模仿, 学习,和联系对象。


除了PySC2工具和游戏API及回放之外,此工具集里还值得一提的就是各种为单独任务设计的小游戏了。把复杂的大型任务分解成单独的小任务是软件工程过程中一个常用的手段,而这正是这些小游戏的目的。现有的“移动镜头”,“采矿采气”,“选择单位”等小游戏可以帮助研究人员一步步完善其AI模型的能力。并且可以连接全球的研究人员们进行比赛,或者提出新的小游戏主意。

可以说,DeepMind和暴雪联合开发的工具一举打开了通往终极星际2 AI的大门。目前,已经有数名世界较高级星际2选手表示,愿意与AI一战。所以,我们只需静静等待DeepMind以及全球各大研究所去做他们最擅长的。对于“人机战争”,整个世界已经拭目以待。

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

     

    GMT+8, 2018-12-12 19:44 , Processed in 0.176487 second(s), 24 queries .