Nature子刊:ChatGPT和LLaMA2,哪个“情商”高? |
![]() |
来源:生物世界 2024-05-23 09:40
研究团队指出,LLaMA2的成功被证明是因为回答的偏见程度较低而不是因为真的对失礼敏感,而GPT-4看起来的失利其实是因为对坚持结论的超保守态度而不是因为推理错误。德国汉堡-埃彭多夫大学医学中心的研究人员在NatureHumanBehaviour期刊发表了题为:Testing theory of mind in large language models and humans的研究论文。
该研究显示,在测试追踪他人心理状态能力 也称心智理论(Theory of Mind) 的任务中,两个大语言模型GPT-4和LLaMA2在特定情况下的表现与人类相似,甚至更好。
在这项研究中,研究团队选择了能测试心理理论不同方面的任务,包括发现错误想法、理解间接言语以及识别失礼。他们随后比较了1907人与两个热门大语言模型(OpenAI开发的GPT-4、Meta公司开发的LLaMA2)完成任务的能力。
研究团队发现,GPT-4模型在识别间接要求、错误想法和误导的表现能达到有时甚至超越人类平均水平,而LLaMA2的表现逊于人类水平。在识别失礼方面,LLaMA2强于人类但GPT-4表现不佳。
研究团队指出,LLaMA2的成功被证明是因为回答的偏见程度较低而不是因为真的对失礼敏感,而GPT-4看起来的失利其实是因为对坚持结论的超保守态度而不是因为推理错误。
研究团队提醒道,大语言模型在心智理论任务上的表现堪比人类不等于它们具有人类般的能力,也不意味着它们能掌握心智理论。但他们也指出,这些结果是未来研究的重要基础,并建议进一步研究大语言模型在心理推断上的表现会如何影响个体在人机交互中的认知。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

- 相关报道
-
- Gastroenterology:运动、肠道微生物与胃肠疾病——一场健康的“肠道革命” (2025-06-10)
- 上海交大/清华大学合作开发AI模型,通过视网膜照片预测中风风险 (2025-06-10)
- STTT:AAV基因治疗阿尔茨海默病 (2025-06-09)
- 首款国产冠脉负压机械抽吸导管获批 (2025-06-09)
- 空气污染会诱发早产?!Environ Sci Technol首次揭示PM2.5是如何通过干扰孕妇的新陈代谢增加早产风险 (2025-06-09)
- 十年顽疾终获确诊:上海六院风湿免疫科成功诊治罕见Buschke硬肿病 (2025-06-09)
- Nature:突破性发现,CREM揭示CAR (2025-06-08)
- BMJ:张惠杰团队发表SGLT2抑制剂治疗代谢功能障碍相关性脂肪性肝炎的原创性临床研究成果 (2025-06-08)
- 《自然》:按摩这个位置,加速大脑“排毒”!逆转大脑衰老的新方法来了 (2025-06-08)
- 《自然·衰老》:又发现近300种蛋白与阿尔茨海默病相关,7蛋白模型预测AD状态AUC最高可达0.88! (2025-06-07)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040