网易首页 > 网易游戏 > 正文

打败Dendi的AI如何炼出?OpenAI公布细节

0
分享至

上个周末的Dota2人机大战引起了很多讨论,很多人都期待着打败人类顶级高手Dendi的OpenAI团队可以公布更多技术细节。今天他们终于满足了玩家和研究者的要求,更新博客的同时还公开了AI打败另外几个人类高手的精彩视频。

对于DOTA2人工智能训练的结果表明,如果计算够充分,自我对练可以将机器学习系统的性能从远低于人类的水平推向超越人类。 在一个月的时间里,人工智能系统从几乎不敌高排名选手到击败顶级职业选手,并还在提升中。有监督的深度学习系统最多达到跟训练数据集同等的程度,但在自我对练系统中,随着代理程序越来越好,可用的数据水平自动提升。

TrueSkill评级(类似于国际象棋中的ELO评级)通过模拟机器人之间的比赛和观察胜率的计算,对最好的DOTA机器人进行了长时间的记录。从添加新特征并改进到算法到特征缩放,系统的每个部分都有改进。更令人惊讶的是,提升的图形呈线性,意味着随着时间的推移可以指数级地改善这个系统。

项目的时间表如下:从某种角度看,15%的玩家低于1.5K MMR; 58%的玩家低于3k; 99.99%低于7.5k。


3月1日:完成第一个经典强化学习,在一个简单的DOTA环境中,让Drow Ranger(卓尔游侠)可以学习风筝一个硬编码的Earthshaker(撼地神牛)。

5月8日:1.5k MMR测试员说他的速度比机器人要快。

6月初:击败1.5k MMR测试员。

6月30日:与3k MMR测试员的对抗中,赢得大多数比赛。

7月8日:几乎赢得所有与7.5K MMR半专业测试员的比赛。

8月7日:击败Blitz(6.2k前职业)3-0,Pajkatt(8.5k pro)2-1,CC&C(8.9k pro)3-0。 所有人都说,Sumail总能找到击败他们的方法。

8月9日:击败Arteezy(10k pro,顶级选手)10-0。 他说Sumail可以搞定这个机器人。

8月10日:击败Sumail(8.3k职业,顶级1对1选手)6-0,他说机器人是“无与伦比”的。而8月9日的比赛,得分为2-1。

8月11日:击败Dendi(7.3k职业,前世界冠军,老玩家的最爱)2-0。 与八月十号机器人相比,这个机器人有60%的胜率。

任务

完整的比赛是5v5,但一些锦标赛也会出现1v1的情况。 机器人遵守标准的锦标赛规则——并没有将AI特有的简化添加到1对1中。

机器人在如下界面上进行操作:

观察:机器人的API特征,英雄、小兵、信使以及任务附近的地形,被设计为与人类可以看到的相同。 并且机器人的视野也与人类相同。

操作:机器人API可访问的操作,也与人类相似,包括移动到某个位置,攻击某个单位或使用某个道具。

反馈:机器人以赢得基本的参数作为奖励,如健康和最后命中。

我们把机器人可以使用的几十个项目列入白名单,并从中选择一个进行评估。 还使用传统的RL技术单独训练初始小兵模块,这个时候我们假设对手还没有出现。

备战国际邀请赛

训练这个机器人的方法,是结合少量的“教练”与自我对练,这样可以大大改善代理在国际邀请赛上星期一和星期四之间的表现。 星期一晚上,Pajkatt通过使用不寻常的出装方式(购买早期魔术棒)获胜。 我们就将这个行为添加到训练的白名单中。

星期三下午1点左右,最新的机器人得到了测试。 机器人在第一波小兵中失去了大量生命值。 我们认为也许需要取消计划,但接下来的游戏让我们改变了这个看法,这个机器人第一波的行为是诱使其他机器人对其进行攻击。 进一步的自我对抗解决了这个问题,因为机器人学会了抵制诱饵策略。 同时,研究者将它与星期一的机器人拼接在一起,仅用于第一波小兵中,并在Arteezy下午四点出现之前的二十分钟完成了这个过程。

在与Arteezy比赛之后,研究人员更新了蠕变块模型,这增加了一个点的TrueSkill评分。 在星期四与Sumail比赛之前的进一步训练中,TrueSkill评分又增加了两个点。 Surmail指出,机器人已经学会了将暴牙扔出敌人的视野。 这是由于我们不知道的策略:这样可以防止敌人获得魔杖。

Arteezy也与7.5k半专业测试员打了一场比赛,在这场比赛中 Arteezy获得了胜利,但是测试人员仍然对他从机器人那里学到的策略感到惊讶。 Arteezy后来表示,这是一个帕帕拉齐曾经用过一次的策略,并不常见。

Pajkatt与星期一的机器人打了一场。 请注意,他诱骗机器人进行与他交战,并使用再生(精灵之火和魔术棒)来治愈。 在一次遭遇战中,机器人通常非常善于决定谁将赢得一场战斗,但是从来没有与在早期就拥有魔杖的人玩过。

机器人的短板

虽然Sumail称机器人是“无与伦比的”,但在一个它从来没有见过的环境下,机器人仍然可能犯晕。 研究人员在国际的网络中中部署了机器人,选手们可以通过任何方法来打败机器人。

成功者可以分为三种类型:

拖拉小兵:当小兵的通过二级和三级塔之间时,可以通过反复攻击它们,吸引它们追逐你。 最终会在地图上会有数十个小兵追逐你,而机器人则会因为塔磨损了太多血量而死亡。

毒球+风杖:这使得你会拥有一个比1级机器人大得多的移动速度优势,并能通过这个战术获得第一滴血。

1级交战:这需要很多技巧,但是几个6-7k的MMR玩家能够在短时间内成功击中机器人3-5下,从而在1级杀死机器人。

解决这些1对1的问题类似于修复Pajkatt漏洞。 但是对于5对5来说,这样的问题根本就不是漏洞,我们需要一个可以处理各种特殊情况的系统。

基础框架

研究团队的重点是首先解决5v5问题。该项目的第一步是弄清楚如何在物理GPU上运行云上的DOTA2。 该游戏在GPU云实例上经常出现错误消息。 但是,当在Greg的个人GPU桌面(就是展示会上的台式机)上启动它时,我们注意到Dota在显示器插入时启动,但在拔下电源时发出了相同的错误消息。 所以研究团队配置了他们的云GPU实例,假装那里连接着一个真的显示器。

DOTA当时不支持自定义专用服务器,这意味着想要可拓展运行又没有GPU的话,只有使用非常慢的软件渲染。 然后,我们创建了一个垫片来存储大多数的OpenGL调用 (除了需要引导的调用)。

同时,我们写了一个脚本机器人 —— 我们需要一个基准来进行比较(特别是因为内置机器人在1v1上不能很好的工作),并且了解了bot API的所有语义。 脚本式机器人在空路上达到了十分钟70次补刀的成绩,但这仍然输给了任何一个正常的人类。 当前最好的1v1机器人可以达到十分钟97次补刀,理论上的最大值是101。

5v5

1对1已经颇繁杂,而5对5可以说是各种复杂问题的聚合体。为了解决这个问题,我们需要进一步提升AI的极限。

行为克隆可能是一个不错的起点。 DOTA每天有大约一百万场公开赛。 这些比赛的视频被存储在Valve的服务器上两周。 自从去年11月以来,研究人员一直在下载每个专家级别的视频,并且已经收集了5.8M场游戏的数据集(每个游戏与10个人约45分钟)。 他们使用OpenDota来挖掘这些视频,并花费了12,000美元(10年的筹款目标)来支持该项目。

相关推荐
热点推荐
莫妮卡·贝鲁奇登上西班牙版《Elle》杂志封面,状态极佳

莫妮卡·贝鲁奇登上西班牙版《Elle》杂志封面,状态极佳

南枫八爪娱
2024-04-24 21:32:00
中国男排官宣新任主帅:名帅海宁 执教获世锦赛冠军+世界杯亚军

中国男排官宣新任主帅:名帅海宁 执教获世锦赛冠军+世界杯亚军

醉卧浮生
2024-04-25 10:47:03
癞蛤蟆也能吃天鹅肉,NBA糙汉娶到仙女,羡煞众人

癞蛤蟆也能吃天鹅肉,NBA糙汉娶到仙女,羡煞众人

元爸体育
2024-04-25 07:15:02
警方调查理想MEGA“灵车”风波,小鹏汽车一中层被带走调查

警方调查理想MEGA“灵车”风波,小鹏汽车一中层被带走调查

与车同乐
2024-04-24 23:26:56
女人突然说“我想要上厕所”,大多是在给你暗示,男人别不懂

女人突然说“我想要上厕所”,大多是在给你暗示,男人别不懂

社会潜伏者
2024-04-25 00:00:24
四川省政府任命2名副厅长

四川省政府任命2名副厅长

人民资讯
2024-04-25 12:55:05
女人在过夫妻性生活时,为什么总发出声音?医生:大多数人不了解

女人在过夫妻性生活时,为什么总发出声音?医生:大多数人不了解

皮皮讲文
2024-01-02 10:36:17
“没把持住就犯法了!”江苏男子称被女技师色诱“加钟”,东郊到家回应

“没把持住就犯法了!”江苏男子称被女技师色诱“加钟”,东郊到家回应

潇湘晨报
2024-04-24 21:15:08
郭晶晶游西安被赞似大唐公主穿搭引热议,网友:这双鞋配不上冠军

郭晶晶游西安被赞似大唐公主穿搭引热议,网友:这双鞋配不上冠军

柠檬有娱乐
2024-04-25 09:45:28
余承东再次调侃小米:玻璃镀银会影响手机信号,用隔热膜效果更好

余承东再次调侃小米:玻璃镀银会影响手机信号,用隔热膜效果更好

映射生活的身影
2024-04-24 23:32:06
葛斯齐再爆猛料!大S孩子学校家长集体怒揭大s真面目:经常爆粗口

葛斯齐再爆猛料!大S孩子学校家长集体怒揭大s真面目:经常爆粗口

小娱乐悠悠
2024-04-25 10:05:17
郭艾伦从西班牙回归辽篮

郭艾伦从西班牙回归辽篮

小豆豆赛事
2024-04-25 11:56:41
媚而不俗,高启兰隆妮不愧是人间尤物,与53岁的于和伟激吻!

媚而不俗,高启兰隆妮不愧是人间尤物,与53岁的于和伟激吻!

慎独赢
2024-04-20 13:07:10
中锋球!恩德里克破门助队逆转,皇马将再向帕尔梅拉斯支付250万

中锋球!恩德里克破门助队逆转,皇马将再向帕尔梅拉斯支付250万

直播吧
2024-04-25 12:28:55
战犯表现!波尔津吉斯今日正负值-32 队史季后赛第6低

战犯表现!波尔津吉斯今日正负值-32 队史季后赛第6低

直播吧
2024-04-25 10:56:27
我和老伴退休金共1万8,自驾游3年风风光光,如今却后悔不已

我和老伴退休金共1万8,自驾游3年风风光光,如今却后悔不已

萧黎观历史
2024-04-22 17:59:28
1990年,利比里亚总统多伊浑身赤裸地瘫坐在地上,他的十指被砍掉

1990年,利比里亚总统多伊浑身赤裸地瘫坐在地上,他的十指被砍掉

回京历史梦
2024-04-23 16:52:51
塔利班:阻止女孩上学和妇女工作是阿富汗内政,国际社会应该尊重

塔利班:阻止女孩上学和妇女工作是阿富汗内政,国际社会应该尊重

娱宙观
2024-04-24 10:18:03
四川队庆功宴!李梦韩旭敬酒,坎贝奇耐人寻味,奖金百万+送房子

四川队庆功宴!李梦韩旭敬酒,坎贝奇耐人寻味,奖金百万+送房子

大咖唠体育
2024-04-25 10:39:56
高挑御姐的极致魅力:大衣与丝袜的完美演绎

高挑御姐的极致魅力:大衣与丝袜的完美演绎

傲娇的马甲线
2024-04-24 18:20:03
2024-04-25 15:06:44

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

体育要闻

当胜利变成意外,就不要再提未来……

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

先涨价再降价,特斯拉“打脸”只用20天?

科技要闻

雷军:希望小米SU7能成为苹果用户购车首选

汽车要闻

这灯效我能看半小时 奥迪Q6L e-tron有备而来

态度原创

数码
艺术
本地
公开课
军事航空

数码要闻

华为太空表:致敬人类探索精神 腕间演绎宇宙之美

艺术要闻

艺术名画︱爱尔兰画家大卫·科因的刀画作品

本地新闻

荒野求生贝爷都得靠边站,真求生还得看留子

公开课

睡前进食会让你发胖吗?

军事要闻

俄美在安理会就外空核武器问题发生冲突

无障碍浏览 进入关怀版