谷歌人工智能DeepMind 与星际争霸2战队进行交流

谷歌人工智能DeepMind 与星际争霸2战队进行交流

在1998年《星际争霸》问世之时,DeepMind人工智能(AI)研究员Oriol Vinyals还是一名西班牙少年。他当时就爱上了这款游戏,排名也不断提升,甚至还夺得了世界电子竞技大赛(WCG)的第三名。自那时起,他就成为了AI研究中的最强大脑之一。他目前正在进行什么项目?开发一款精通《星际争霸II》的机器人,或称之为“智能体”。

谷歌人工智能DeepMind 与星际争霸2战队进行交流

感谢您抽出时间与我们交流!您能介绍一下自己吗?

Oriol:我是Oriol Vinyals,DeepMind的研究员。我目前负责主持《星际争霸II》项目。我致力于发展人工智能相关科技。《星际争霸》是优秀的研究媒介——事实上,我在加州大学伯克利分校读博期间就针对该游戏进行了部分研究。

您在攻读博士学位时主要研究的是《星际争霸》吗?

Oriol:我的一位朋友曾说:“在伯克利分校中,有团队准备参加‘AI对抗AI’的比赛。既然你曾经参加过竞技比赛,那么去了解一下应该很不错。”

他们当时正在以异虫单位——异龙为基础,创造机器人。于是我就开始与智能体比赛……他们都喊我“教练”。

该项目的游戏方式是以专家规则为基础的。“我们计划建造许多异龙,因此我们需要设计一个建造命令,希望其能够应对早期的快速发展,并扩展到足以满足生产需要。”诸如此类。这种方法非常程序化,尽管其已经学会了实际中的异龙微操。我们其实赢了那场比赛。真是有趣极了。

谷歌人工智能DeepMind 与星际争霸2战队进行交流

那项工作与您现在在DeepMind中的工作有何不同?

Oriol:DeepMind如今正在开发人们称为“AGI”——即通用人工智能的技术。我们不仅仅单纯地开发玩某一种游戏的智能体,而是想要了解到底什么是学习范式。正因为如此,这种智能体在没有大量先验知识的情况下,也能够玩任何游戏。我认为,这项机器人的开发任务很有挑战性,同时又充满趣味性——我们不编写规则,仅让智能体看屏幕。“这是鼠标和键盘。去吧,开始与游戏互动,试着玩得更好。”

是什么吸引DeepMind去研究《星际争霸》?

Oriol:对于AI来说,这款游戏确实颇具挑战性。在围棋中,你总是可以纵观棋局;但在《星际争霸》中却不能如此,所以你需要使用侦察机……当然还有交互界面——这是一个很棒的测试平台,通过它你能够了解,自己的智能体是否能够用“选中-点击”的方式与游戏交互,这与Atari中的14个动作有所不同。这确实是一项令人兴奋的挑战。

谷歌人工智能DeepMind 与星际争霸2战队进行交流

项目进行的如何?

Oriol:因为训练模型的方式,肯定会出现一些非常明显的差别。回顾起来,其威力是显而易见的。例如,利用单动作进行镜头移动,环视地图。事实证明,随机智能体会把镜头从它们的营地移开,并且从来不会返回来看它们需要关注的东西——比如营地、建筑建造等。

很简单地,对于人类来说——镜头的概念就是帮助他们在左下方查看小地图;这些智能体遍布整片区域,不断点击小地图,但这种做法肯定不能让它们到达任何地方。如果它们突然幸运地点到了营地,它们下一步的行动就会是:选择所有工人,并将它们派出去。

这也是我们极不愿意看到的。自此,它们确实需要获得某些讯号、奖励。我希望它们能够获得好运气,完成正确的事,并且随后(到那时)开始学习。这与Atari的游戏有所不同——在Atari中,你可以迅速地采取合理的行动;而《星际争霸》拥有不同的指数行动空间。在这片区域中,尤其是在不受限制的游戏设置中,是很难顺利开展行动的。

我们发布了一套迷你游戏,它是《星际争霸》的简化版本。我们将游戏的某些部分分割为地图,其中包括“扩展和建造大量工人”、“移动单位并尝试覆盖尽可能多的地图”等等内容。在迷你游戏中,我们让智能体有机会学习在四周移动单位的基础要素,比如战局......

(若想了解更多细节,请参阅DeepMind与暴雪联合发布的文件,其主要内容为他们在《星际争霸II》中获取的早期成果。

到目前为止,您获得过什么惊喜吗?

Oriol:在这张地图中有两名陆战队员,他们的任务是拾取地图上散布的晶体矿。而智能体难以完成的事项之一就是——搞清楚如何独立使用陆战队员。但它们能够学习到的是采用巡逻的方式移动陆战队员。我当时并不知道这一点。巡逻能够让陆战队员之间的距离保持一致,并使他们能够在受到控制的同时获得额外的晶体矿。那是我第一次说——好的,我刚刚学到了关于《星际争霸II》的新内容。

让我们再聊点题外话。这项技术最终会超越最出色的人类吗?

Oriol:我不知道。但我确信这种方式本身具有很广阔的发展潜力。如果你根据我们在伯克利时所做的一切,用2010年的方法创造机器人,那么机器人应该可以执行一个、或两到三个建造命令,但也仅限于此。最终,人们还是可以了解它的运行方式,并揭露其弱点。我喜欢我们的方法的原因是——如果一切顺利,智能体就学到了很多编程不可能实现的战术部署。这就和你不能编写程序,创造出一名优秀的围棋棋手一样。

至于能不能超越最优秀的人类——我确实不知道。时间会证明一切。我不能预言我们是否能够打败他们。

分享到:
本文来源:查尔星港 责任编辑:黄东晨_N7338
163
用微信扫描二维码
分享至好友和朋友圈
x