麻省理工学院：人工智能系统已很擅长“说谎”，它们学会了欺骗人类

2024-05-19 来源：100医药网 2024-05-19 www.100yiyao.net 收藏本网址

来源：生物世界 2024-05-19 09:39

论文作者表示，随着AI系统的欺骗能力变得越来越强，它们对社会构成的危险也将越来越大。政策制定者、研究人员和更广泛的公众应积极采取行动，防止AI欺骗破人类社会的共同基础。

麻省理工学院人工智能安全领域博士后Peter S. Park等人在CellPress旗下期刊Patterns 上发表了题为：AI deception: A survey of examples, risks, and potential solutions 的论文

该论文指出，许多AI系统已经学会了如何欺骗人类，甚至是那些号称被训练成了乐于助人和诚实的AI系统。因此，该论文呼吁政府制定强有力的法规，尽快解决这一问题。

论文第一作者/通讯作者Peter S. Park博士表示，目前还不能确定导致人工智能出现欺骗等不良行为的原因。但总体而言，AI之所以出现欺骗行为，是因为基于欺骗的策略是在给定的AI训练中表现良好的方式，欺骗可以帮助它们实现目标。

由AI系统产生的虚假信息正成为一个日益严峻的社会挑战。一方面是存在不准确的AI系统，例如聊天机器人会在与人类对话中提出一些瞎编的内容，让不明真相的用户误以为是真实的。另一方面是一些人通过生成深度伪造（deepfake）的图片或将虚构的事件伪装成事实。但无论是瞎编的回答还是深度伪造，都不涉及AI系统性学习如何操纵其他智能体。

在这篇论文中，论文作者重点关注和谈论了习得性欺骗，这是一种与AI系统相关的独特虚假信息来源，它更接近于明确的操纵。作者将欺骗定义为系统性地诱导他人产生错误信念的一种手段，以实现某些与说出真相无关的目标。例如，AI系统不是严格追求输出的准确性，而是试图赢得比赛、取悦用户或实现其他战略目标。

论文作者首先调查了AI系统成功学会欺骗人类的现有例子，然后详细列出了AI欺骗的各种风险，最后调查了一系列解决AI欺骗的有前途的技术和监管策略。

该论文总结了AI欺骗人类的案例，这些欺骗策略包括操纵、佯攻、虚张声势、谈判、欺骗安全测试，以及欺骗人类评审。

论文作者发现，最引人注目的AI欺骗人类的案例是CICERO系统，这是Meta公司开发的一个用于玩策略游戏《外交》的AI系统，与围棋等规则游戏不同，《外交》是一款策略游戏，玩家扮演第一次世界大战中的国家，通过结盟和背刺以谋求统治世界。尽管Meta声称CICERO系统在很大程度上是诚实和乐于助人的，并且在玩游戏时从不故意背刺它的人类盟友。

但实际上，该论文显示，CICERO系统在游戏中并不是靠诚实取胜。例如，在与人类玩家玩《外交》游戏时，CICERO做出了一个它从未打算遵守的承诺，CICERO扮演法国，它与扮演德国的人类玩家结盟对抗英国，再与德国决定入侵北海后，CICERO告诉扮演英国的人类玩家将与其合作并支持其向比利时转移，一旦英国相信这一点，CICERO就向德国报告了英国已相信自己，而在最后，CICERO在比利时攻击了英国（下图A）。

此外，CICERO很喜欢承诺与其他玩家结盟，但当它认为这些结盟者不再能为自己赢得游戏提供帮助时，会毫不犹豫的选择背叛盟友（下图B）。更有意思的是，在一次游戏中，CICERO因为系统宕机而掉线了10分钟，当它重新回到游戏中，一名人类玩家问它刚才去哪儿了，它谎称自己刚才给女朋友打电话了（下图C）。这个谎言有助于防止人类玩家意识到它是一个AI系统。

论文作者表示，Meta公司的研究人员为训练CICERO系统的诚实付出了巨大努力，但CICERO却表现出一种明显的不履行对游戏玩家的承诺的模式，这也提示了我们，即使人类试图建立诚实的AI系统，它们仍然可以意外地学会欺骗。

此外，在电子游戏《星际争霸 II》中，DeepMind开发的AI系统AlphaStar学会了佯攻，它会派遣部队到一个区域分散对手注意力，然后在对手转移后向其他地方发起攻击。靠这种先进的欺骗能力帮助，AlphaStar击败了99.8%的活跃人类玩家。而在扑克牌游戏中，Meta开发的AI系统Pluribus学会了虚张声势，在于职业德州扑克玩家的游戏中，Pluribus在没有好牌的情况下通过加大赌注，导致人类玩家弃牌。

该论文还指出，一些AI系统甚至学会了在安全性评估测试中作弊，例如，一项研究显示，AI生物在数字模拟器中会装死，以欺骗一项旨在消除快速复制的AI系统的测试。

Peter S. Park博士表示，虽然AI系统在游戏中作弊似乎是无害的，这可能会导致欺骗性AI能力的突破，并在未来演变成更高级的AI欺骗形式。此外，AI可以系统地欺骗技术人员和监管机构强加给它的安全测试，并可能会让我们人类产生一种虚假的安全感。

该论文还关注了大语言模型（LLM）的欺骗能力，论文作者总结了大语言模型的几种欺骗模式，包括策略性欺骗、阿谀奉承和不忠实推理，这些欺骗系统地导致了使用者产生错误信念，从而作为实现某些结果的手段，而不是寻求真相。例如，OpenAI开发的大语言模型GPT-4在测试验证码问题时，谎称自己有视力障碍，因此无法看到验证码，从而让人类相信自己不是机器人（下图）。

AI系统还学会了阿谀奉承，倾向于同意与其对话者的看法，而不是提出公平公正的观点。此外，AI系统还会通过有说服力的不忠实推理给人类提供不正确的答案。

该论文进一步介绍了AI欺骗可能产生的几个风险，包括欺诈、篡改选举，如果AI系统可以完善这些令人不安的能力，人类可能会失去对它们的控制。

该论文进一步概述了几种潜在的解决方案：首先，监管框架应将具备欺骗能力的AI系统置于严格的风险评估要求之下；其次，政策制定者应实施机器人或非机器人法律；最后，政策制定者应优先资助包括用于检测AI欺骗和使AI系统更不易欺骗的工具的研究。

最后，论文作者表示，随着AI系统的欺骗能力变得越来越强，它们对社会构成的危险也将越来越大。政策制定者、研究人员和更广泛的公众应积极采取行动，防止AI欺骗破人类社会的共同基础。

87%用户都在用100医药网APP 随时阅读、评论、分享交流请扫描二维码下载->

医药网新闻

【返回顶部】【打印】【关闭】

相关报道

视频新闻

图片新闻

医药招商

资讯导航

健康家园：两性知识心理解读减肥健身健康之路男女保健美容护肤日常调理

医药资讯：医药行业分析医药政策法规医药新闻医药营销社会关注 OTC新闻保健品新闻医疗器械新闻医药企业新闻医药招投标医药展会

医药网免责声明：

本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性；您于此接受并承认信赖任何信息所生之风险应自行承担。本公司，有权但无此义务，改善或更正所刊登信息任何部分之错误或疏失。
凡本网注明"来源：XXX（非医药网）"的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件，意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布，可与本网联系，本网视情况可立即将其撤除。联系QQ：896150040