中国投资界 > 焦点新闻 > 正文

AI都会和人类谈判了？MetaAI最新研究登上Science，LeCun

时间：2022-11-24 14:11:49 来源：IT之家阅读量：7402

AI已经学会和人类谈判了你能说服人类听它吗

字写得太好了，人类根本看不出来是AI。

这是Meta AI—AI模型西塞罗的最新成果，已经发表在《科学》杂志上。

嗯，和古罗马著名政治家，演说家西塞罗同名。

研究人员让这个AI西塞罗隐藏身份，加入一场外交游戏在40场比赛中，82名人类玩家从未怀疑过它其实是一个AI

而且战绩可圈可点，全程平均分25.8%，是人类选手平均分的两倍，最终排名前10%。

结果一经发布，便在网上引起热议。

有人评论:这意味着AI在最像人类的游戏中打败了人类，超乎想象…

乐存称之为:里程碑式的研究！

目前模型代码已经在GitHub上开源。

我真的觉得自己是个AI战略家。

其实AI chatter一直都是被诟病的，更何况外交这种对语言能力要求超高的场景。

它需要理解对方的语言，动机，制定自己的修辞策略，调整措辞。

有时候甚至需要玩心眼，故意说一些谎话，给对方设个圈套。

如何挑战这种超高难度的任务。

俗话说，一口吃不胖。

Meta AI想到了从游戏场景入手。

但外交博弈不同于以往的棋局或竞技游戏，没有那么规律，有很多运筹帷幄，随机应变的环节。

实验中使用的游戏是网络外交。

这个游戏的背景是1901年的欧洲七个玩家各自控制一个大国，通过相互合作协商，尽可能多的占领领土

西塞罗的核心是由对话引擎和战略推理引擎驱动的。

简单，这里的对话引擎类似于GPT—3和LaMDA，策略推理引擎类似于AlphaGo。

所使用的对话模型是从具有2.7亿个参数的BART模型中训练出来的。

巴特吸收了GPT和伯特各自的特点比BERT更适合文本生成的场景，可以双向理解上下文信息

具体来说，研究人员先从网上获取文本训练对话模型，然后在实际的外交游戏场景中进行微调。

战略推理引擎使用计划算法。

该算法可以根据当前情况计算出最佳选择然后通过加强学习训练，惩罚模型做出的不像人的策略，让模型给出的策略更加合理

毕竟在外交游戏中与人打交道是让AI更加人性化的最基本要求之一。

而且强化学习的迭代训练可以不断提高AI做出的战略预测监督学习的效果优于传统方法

在实际操作中，西塞罗会先根据目前为止的游戏状态和对话，对每个人的行动进行初步预测。

接下来，在不断协商的过程中，它会不断完善自己的预测，然后利用这些预测为自己和合作伙伴设定一个共同的目标。

其次，它会根据情境状态，对话及其目标，从对话模型中生成若干候选消息，利用分类器等过滤机制过滤掉无意义的消息，生成最终的高质量输出文本。

当球员意大利问它是否应该进攻土耳其时，西塞罗会根据场上的情况判断这是从两面夹击俄罗斯的好机会，然后说服意大利跟进进攻土耳其。

这一步不仅与意大利建立了合作伙伴关系，还消除了一个潜在的竞争对手。

而且，谈判是西塞罗的专长。

西塞罗这次扮演的是德国，之前和玩家法国交战过此时法国南部同时遭到意大利的攻击，于是他找西塞罗和谈

西塞罗利用狮子的大嘴，要求法国归还侵占的领土，并承诺不再进攻荷兰双方在讨价还价中成功地达成了协议

就像上面的例子，西塞罗在两个月的时间里参加了40场外交比赛，与82名人类选手进行了对抗。

西塞罗在每场比赛中平均收发130条信息。

它的游戏水平甚至优于人类:平均分是人类玩家的两倍以上，甚至玩过一局以上的参与者都能排进前10%。

网友:虽然表现不错，但是我很害怕。

看了西塞罗在外交上的精彩表现，有网友感受到了AI的发展速度:

Deep打败了卡斯帕罗夫，Watson在竞猜中打败了两个人类冠军，现在轮到Meta AI敲马基雅维利的门了。

还有人说，这是迈向通用语言大模型的第一步吗。

乐村给出了肯定的答复:

至少语言是有事实依据的。

可是，由于这场外交游戏以作弊闻名，许多人也对此感到担忧:

这是直接鼓励科研人员开发更多善于作弊的模型。

有网友表示，玩这个游戏甚至会失去朋友。

从AI西塞罗的战绩来看，它可以迷惑人类玩家，说服人类跟随它的策略。

所以有人说这不是AI在控制人类的选择甚至生命吗。

不过Meta AI说AI西塞罗也不是没有错误。

而且游戏中还有很多环节需要人类配合西塞罗的表现也很好

目前只在游戏场景中测试过，还没有尝试过在开放的背景下与人类谈判。

参考链接:

。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。