华乐网
当前位置: 首页 >体育 >综合体育 >电子竞技 >DOTA >正文

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何教的

2021-12-05 04:53    

雷锋网 AI 科技评论按:我们都已经知道了,OpenAI 的 5v5 DOTA AI 「OpenAI Five」再次完胜人类。

美国时间 8 月 5 日星期天下午,OpenAI 组织的线下比赛(OpenAI 称其为「OpenAI Five Benchmark」)中一共进行了四局比赛。第一局 5 名现场观众组成的路人队伍被 7 分钟破中路二塔,9 分钟上路上高地,12 分钟破两路,人头比 26:4,可以说是完全碾压。

之后的三局比赛是重头戏,「OpenAI Five」对阵 4 位前职业选手(Blitz、Cap、Fogged、Merlini)与 1 位现任职业选手(MoonMeander)组成的高手队伍。第一局依然惨败,21 分钟破第二路高地,人类选手打出 GG,人头比 39:8。第二局人类选手选择了更强的控制、更积极的打法,却也只坚持到了 24 分钟,人头比 41:12。这样,三局两胜的比赛就已经告负了。

第二局人类高手比赛结束后,OpenAI CTO Greg Brockman 上前依次拥抱 5 位(前)职业选手致意

胜负已分,第三局就成为了娱乐局,现场观众给「OpenAI Five」选择了 5 个不怎么厉害的英雄,最后果然让人类玩家获得了胜利。

不过除了比赛比分之外,广大强化学习研究人员和人工智能爱好者还有一个深深的疑问就是,这样的 AI 是如何训练出来的。

毋庸置疑,DOTA 游戏的复杂程度比围棋要高,反馈也相当稀疏,即便选用了 OpenAI 已经开发得非常成熟的大规模分布式 PPO 实现「Rapid」,我们也难以直觉上信服「只要有足够的训练时间就能学到如此丰富的游戏行为」。比如首先「OpenAI Five」的团队协作上表现出了人类一样的明确的核心和辅助英雄的区分,比如据 OpenAI 的研究人员介绍「OpenAI Five」也会选择打肉山,只说这两件事就都是人类玩家需要经过有意识的策略判断和执行才能做出的。强化学习算法现在就有这么高层次的思维了?不太可能吧。

下面这些 5 日的比赛中的瞬间也值得玩味:

比赛进行到 20 分钟,AI 的巫妖去看肉山。实际上整场比赛中 AI 的英雄时不时就会去看看肉山

品牌、内容合作请点这里: 寻求合作 ››

榜单

今日推荐