Nature：人类心智的“源代码”——AI如何学会像我们一样思考？

2025-07-07 00:00
来源：100医药网
阅读：436

心智的巴别塔：为何破解人类认知如此之难？

在探索心智的道路上，研究人员们构建了无数理论和模型，试图解释我们如何学习、决策、记忆和推理。这些模型如同一个个独立的部落，各自说着不同的方言，在自己的领地里称王。

例如，在决策领域，有解释风险偏好的前景理论；在学习领域，有描述我们如何通过试错来优化行为的强化学习模型 (reinforcement learning models)；在分类领域，有解释我们如何将新事物归入已知类别的范畴化模型 (categorization models)。每一个模型都在其特定的任务上取得了辉煌的成就，为我们理解某个侧面的心智活动提供了深刻洞见。

但问题也恰恰在于此。这些模型是领域特定 (domain-specific)的。一个擅长解释赌博行为的模型，对于我们如何记住一串电话号码可能毫无头绪。这种理论上的碎片化，就如同圣经故事中那座因语言不通而无法建成的巴别塔，使得构建一个统一、连贯的人类认知图景变得异常困难。早在1990年，认知科学的先驱艾伦纽厄尔 (Allen Newell)就曾预言：统一的认知理论是我们将日益增长的知识置于智力控制之下的唯一途径。

要实现这一宏愿，第一步就是要创造一个能够跨领域预测和模拟人类行为的计算模型。它需要理解不同实验的规则，并像一个真正的参与者那样做出反应。这不仅需要强大的计算能力，更需要一个前所未有的教材一本记录了人类多样化行为的百科全书。

铸造人类行为之书：史上最大规模认知数据集Psych-101

Centaur的诞生，离不开一个堪称史诗级的数据工程 Psych-101数据集的构建。如果说模型是引擎，那么数据就是燃料，而Psych-101无疑是最高标号的航空燃油。

研究人员们意识到，要让AI理解人类，就必须让它阅读海量的人类行为记录。为此，他们搜集、整理并转录了160个经典的心理学实验数据。这些实验覆盖了认知科学的广阔疆域，形成了一个规模空前的数据集。

超过 60,000 名参与者数量

超过 10,000,000 次总决策次数

超过 2.5 亿总文本标记 (Tokens)

这不仅仅是数字上的震撼。更巧妙的是，研究人员将每一个实验，包括其规则、流程以及每个参与者的每一次选择和反馈，都用自然语言 (natural language)的形式进行了转录。这意味着，AI读到的不再是冰冷的数字矩阵，而是一段段生动的叙事文本。例如，在一个经典的多臂老虎机 (multi-armed bandits) 实验中，文本是这样的：在这个任务中，你需要在两个标签为B和C的老虎机之间反复选择你按下了 C ，得到了-8分通过这种方式，160个风格迥异的实验都被统一成了一种AI可以理解和学习的格式。

从语言天才到读心者：认知模型Centaur

有了Psych-101这本独一无二的教材，接下来就需要一位足够聪明的学生。研究人员选择了当时最先进的大语言模型之一 Llama 3.1 70B作为Centaur的基础。但一个通晓百科的通才还不足以成为一个认知专家，还需要进行专业课特训，这个过程被称为微调 (fine-tuning)。

这里的技术实现也颇为巧妙。直接微调一个拥有700亿参数的巨大模型，成本极高。因此，研究人员采用了一种名为QLoRA (Quantized Low-Rank Adaptation)的参数高效微调技术。你可以把它想象成给一本厚重的参考书添加便利贴。书（基础模型）本身的内容保持不变（被冻结），研究人员只在模型的关键部分添加一些小型的、可训练的适配器 (adapters) 。令人惊叹的是，这些新增的适配器参数仅占原模型总参数量的0.15%。通过这种四两拨千斤的方式，研究人员仅用一台高性能GPU，花费大约五天时间，就成功地将一个通用的语言模型雕琢成了精通人类认知的Centaur。

终极图灵测试：Centaur能否精准预测人类的选择？

一个模型是否成功，最终要靠数据说话。Centaur接受了一系列堪称终极图灵测试的严苛考验。它的表现不仅优异，甚至可以说是惊人。

第一关：在题库内预测未知用户的行为

研究人员将Psych-101数据集中每个实验的90%参与者数据用于训练Centaur，剩下的10%作为考题。评估的标准是负对数似然 (negative log-likelihood)，这个值越低，代表模型的预测越准。结果显示，在几乎所有的实验中，Centaur都取得了压倒性的胜利。与未经微调的Llama相比，Centaur的预测准确性平均提升了0.14个单位；与那些为特定任务设计的传统认知模型相比，平均提升了0.13个单位。

第二关：不只是平均先生，模拟真实的人类多样性

研究人员让Centaur进行开环模拟 (open-loop simulation) ，即模型自己做出选择并独立完成整个实验。在双步任务 (two-step task) 中，人类的行为分布呈现出一种独特的双峰形态 (bimodal distribution)，Centaur的模拟结果完美复现了这种分布，表明它捕捉到了人类策略的多样性。在另一个需要区分人类与 AI 行为的社会预测游戏中，Centaur预测真人玩家选择的准确率高达64%，而预测假人时，准确率骤降至35%。这有力地证明，Centaur学到的是真正人性化的认知模式。

跳出教科书：Centaur在未知挑战中的惊人泛化能力

真正的考验来自于未知。一个强大的认知模型，不应只局限于它学习过的题库，还必须能够泛化 (generalize)到全新的情境中。研究人员为Centaur设计了三项层层递进的极限挑战。

挑战一：换个马甲你还认识吗？在一个将任务背景从外星寻宝换成魔法飞毯旅行的新实验中，Centaur几乎没有受到任何影响，其预测人类行为的负对数似然值为0.51，依然显著优于Llama基础模型（0.63）和传统的认知模型（0.61）。

挑战二：规则变了怎么办？面对一个从二选一变成三选一的玛吉的农场 (Maggie s farm) 实验，传统认知模型几乎失灵（预测值0.98），而Centaur再次展现了强大的适应力，其预测值仅为0.42，几乎碾压了传统模型。

挑战三：闯入全新领域。这是最严苛的考验。在面对一个完全陌生的逻辑推理 (logical reasoning)实验时，Centaur的预测准确性（负对数似然值1.65）显著高于其前身 Llama（1.92），证明其底层的学习和推理能力也得到了淬炼。

窥探黑箱：当行为训练重塑了AI的数字大脑

Centaur在行为预测上的成功已经足够令人振奋，但研究人员的好奇心不止于此。他们想知道：在Centaur的数字大脑内部，究竟发生了什么？它的内部表征 (internal representations) 是否也变得更像人脑了？

为了回答这个问题，他们进行了一项巧妙的神经对齐 (neural alignment) 分析，利用fMRI数据记录的人类大脑活动，来检验模型的内部状态。结果令人震惊：经过行为数据微调的Centaur，其内部表征能够比未经微调的Llama更准确地预测人脑的活动。更不可思议的是，这种神经对齐的提升是自发的。仅仅为了更好地模仿人类的选择，Centaur的内部信息处理方式就自发地向人脑的运作模式靠拢了。这一发现在一个完全不相关的句子阅读任务中也得到了验证，表明这种变化是根本性的。

从预测到发现：当AI成为认知科学家的灵感合伙人

Centaur最深远的影响，或许不在于它是一个多么强大的预测引擎，而在于它能成为一个推动科学发现的催化剂。研究人员通过一个精彩的案例，展示了如何与Centaur合作，提炼出关于人类决策的新洞见。

第一步：发现疑点。在一个多属性决策任务中，现有模型的预测能力（AIC值为181.7）远不如Centaur（AIC值为72.5）。这中间的巨大差距，就是科学的遗憾 (scientific regret) ，也意味着有未被发现的认知规律。

第二步：AI提供线索。研究人员让另一个强大的AI模型来阅读数据并生成一个关于决策策略的口头解释，AI提出了一个两步策略的有趣假设。

第三步：Centaur精确定位。他们利用Centaur作为真理标准，找出了简单模型预测错误、而Centaur预测正确的关键案例。

第四步：破案并建立新理论。通过分析这些关键案例，他们发现了一个深刻的模式：人们并非在两个策略间进行非此即彼的切换，而是在进行一种加权平均 (weighted average) 。基于这一洞见，他们构建了一个新的、可解释的 (interpretable)认知模型，其预测能力（AIC值为71.7）与强大的黑箱 Centaur旗鼓相当。这个案例完美展示了一种全新的科研范式。

推开认知新世界的大门：我们站在了哪里？

Centaur的诞生，是认知科学领域一个里程碑式的事件。它不是那个传说中的大一统理论，但它是一个坚实的基石模型 (foundation model) 。它证明了，通过大规模数据驱动的方式，我们有可能创造出能够广泛捕捉人类认知复杂性的计算模型。

这扇通往认知新世界的大门已经被推开。未来，研究人员计划进一步扩充Psych-101数据集，将社会心理学 (social psychology)、发展心理学 (developmental psychology)等更多领域纳入其中，并开始关注个体差异 (individual differences)，以克服目前数据仍偏向西方被试 (WEIRD population) 的局限。长远来看，甚至可能发展出能够处理图像、声音等多模态信息的认知模型。

我们正处在一个激动人心的十字路口。理解人类自身的心智，是科学最古老、也最迷人的追求之一。现在，我们有了一位全新的、强大的、甚至有些神秘的旅伴。Centaur如同一面由代码和数据铸造的镜子，它将我们自身的行为模式以一种前所未有的清晰度反射回来，让我们得以更深入地审视那个我们既熟悉又陌生的自我。

这场探索之旅，才刚刚开始。

87%用户都在用100医药网APP 随时阅读、评论、分享交流请扫描二维码下载->