Nature子刊:ChatGPT和LLaMA2,哪个“情商”高? |
![]() |
来源:生物世界 2024-05-23 09:40
研究团队指出,LLaMA2的成功被证明是因为回答的偏见程度较低而不是因为真的对失礼敏感,而GPT-4看起来的失利其实是因为对坚持结论的超保守态度而不是因为推理错误。德国汉堡-埃彭多夫大学医学中心的研究人员在NatureHumanBehaviour期刊发表了题为:Testing theory of mind in large language models and humans的研究论文。
该研究显示,在测试追踪他人心理状态能力 也称心智理论(Theory of Mind) 的任务中,两个大语言模型GPT-4和LLaMA2在特定情况下的表现与人类相似,甚至更好。
在这项研究中,研究团队选择了能测试心理理论不同方面的任务,包括发现错误想法、理解间接言语以及识别失礼。他们随后比较了1907人与两个热门大语言模型(OpenAI开发的GPT-4、Meta公司开发的LLaMA2)完成任务的能力。
研究团队发现,GPT-4模型在识别间接要求、错误想法和误导的表现能达到有时甚至超越人类平均水平,而LLaMA2的表现逊于人类水平。在识别失礼方面,LLaMA2强于人类但GPT-4表现不佳。
研究团队指出,LLaMA2的成功被证明是因为回答的偏见程度较低而不是因为真的对失礼敏感,而GPT-4看起来的失利其实是因为对坚持结论的超保守态度而不是因为推理错误。
研究团队提醒道,大语言模型在心智理论任务上的表现堪比人类不等于它们具有人类般的能力,也不意味着它们能掌握心智理论。但他们也指出,这些结果是未来研究的重要基础,并建议进一步研究大语言模型在心理推断上的表现会如何影响个体在人机交互中的认知。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

- 相关报道
-
- Cell:开发出LoxCode技术,可在胚胎发育的早期阶段追踪细胞命运 (2025-07-05)
- Cancer Cell:胡国宏团队首次揭示,化疗会唤醒休眠癌细胞,导致癌症复发转移 (2025-07-05)
- 研究破解马传贫疫苗致弱关键因素 (2025-07-05)
- 《科学》:分子胶重大突破!超1600个靶蛋白浮出水面,分子胶可降解蛋白范围大幅扩大 (2025-07-05)
- MC:复旦大学团队首次发现BAG2感知精氨酸缺乏,促进肿瘤存活的机制! (2025-07-05)
- Nature:人体组织中的体细胞镶嵌现象,科学家揭秘人类健康与疾病背后的基因秘密 (2025-07-04)
- AJPEM:肠道激素FGF19加速脂肪燃烧,促进肥胖小鼠减肥 (2025-07-04)
- Nature:慢性炎症“元凶”现形!WSTF蛋白核自噬的双面人生 (2025-07-04)
- Science:为何我们的记忆是“一件事一件事”的?里程碑研究揭示大脑分割体验的神经机制 (2025-07-04)
- 沛嘉医疗医嘉学苑设计荣获"设计界奥斯卡", 助力医疗教育再创新高 (2025-07-03)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040