Cell:学习中的“蝴蝶效应”——早期微小偏好如何通过多巴胺滚雪球,决定你的最终技能风格 |
![]() |
新手上路:为何你的学习之路与众不同?
想象一下,一群新手司机第一次坐在驾驶位。他们面对的是同样的方向盘、油门和刹车,学习同样的交通规则。然而几周后,他们的驾驶风格和学习瓶颈却千差万别。这正是研究人员在小鼠身上观察到的现象。
为了探究长期学习的奥秘,研究人员设计了一个视觉决策任务。他们将小鼠的头部固定,面前放置一个屏幕,屏幕的左侧或右侧会随机出现一个视觉刺激(一个光栅图案)。小鼠的任务是,通过转动前爪下的一个小轮子,将屏幕上的光栅 拨 到中央位置,做出正确的选择即可获得一滴水作为奖励。这个任务对小鼠来说并不简单,需要它们将 看到光栅在哪边 和 应该往哪边转轮子 这两件事关联起来。
研究人员对40只小鼠进行了长达数周的追踪训练,其中30只成功学会了这项任务,达到至少70%的正确率,这个过程平均需要19天。然而,通往 专家 的道路并非千篇一律。通过分析小鼠每天的决策数据,研究人员绘制出了它们的 学习画像 心理测量曲线(psychometric curve)。这条曲线展示了在不同刺激条件下,小鼠选择向右转动轮子的概率。
一开始,所有小鼠都像无头苍蝇,它们的决策曲线是平的,说明它们根本不理会屏幕上的光栅,只是随机地或凭感觉选择方向。有趣的是,几乎每只小鼠在学习初期都表现出了明显的选择偏好(bias) 要么倾向于向左转,要么倾向于向右转。这种偏好并非一成不变,而是随着学习的进行发生着动态演变。
更令人惊讶的是,小鼠们最终 毕业 时的策略也呈现出巨大的多样性。
一部分小鼠成为了 平衡型选手 (balanced strategy)。它们学会了识别左右两侧的刺激,并做出相应正确的反应。它们的心理测量曲线在两侧都变得陡峭。
另一些小鼠则走了 捷径 ,成为了 单边关联型选手 (associating strategy)。例如,一只 右侧关联 的小鼠只学会了 看到右边有刺激就向右转 这一条规则。当刺激出现在左边,或者干脆没有刺激时,它就默认选择向左转。因此,它的心理测量曲线只有在右侧刺激出现时才陡峭,而在左侧则是平的。反之亦然,也存在 左侧关联 的小鼠。
这意味着,即使是面对同一个任务,不同个体也会自发地探索出完全不同的解决方案。这种现象在人类学习中也比比皆是,比如有的人学外语靠背单词,有的人则靠沉浸式对话。
如果故事到此为止,我们可能会认为学习充满了随机性和不可预测性。但研究人员的发现远不止于此。他们发现,在这种多样性的背后,隐藏着惊人的系统性(systematicity)。小鼠在学习早期(实验第4-8天)表现出的微小选择偏好,竟然能强烈地预测它在数周后(实验最后5天)会采用哪种高级策略!数据显示,早期偏好与晚期偏好,以及晚期形成的左右两侧策略差异之间,存在着极强的正相关性(相关系数 r 高达 0.69)。换句话说,一只小鼠在刚开始学习时,如果稍微有点 右撇子 的倾向,那么它极有可能在未来几周内,发展成一个依赖右侧视觉线索的 单边专家 。
这个发现颠覆了我们对学习的传统认知。它表明,学习并非简单的试错和知识累积,而是一条被早期经验深刻塑造的、具有内在逻辑的轨迹。那么,是什么在大脑中扮演着这位 命运规划师 的角色,为每个个体铺设了这条独特的学习之路呢?研究人员将目光锁定在了大脑的奖励和学习中枢 多巴胺(dopamine, DA)系统。
多巴胺:你的专属学习教练,还是 偏科 的始作俑者?
多巴胺通常与快乐、动机和成瘾联系在一起。在学习领域,它扮演着一个关键角色 编码奖励预测误差(reward prediction error, RPE)。简单来说,当实际得到的奖励超出预期时,多巴胺神经元会兴奋,释放大量多巴胺,仿佛在说: 干得好!记住刚才的操作! ;如果结果不如预期,多巴胺水平则会下降,像是在提醒: 这条路不对,换个方法试试。 这个信号被认为是驱动强化学习(reinforcement learning, RL)的核心机制。
但是,传统理论能解释研究人员观察到的那种高度个体化、且具有系统性的学习轨迹吗?为了回答这个问题,研究人员利用光纤光度法(fiber photometry)技术,在小鼠学习的全程中,实时监测了其背外侧纹状体(dorsolateral striatum, DLS)的多巴胺水平。DLS是大脑中一个对基于感觉信息的决策学习至关重要的区域。
监测结果令人震撼:多巴胺的活动模式,与每只小鼠独特的学习策略 神同步
在学习初期,当小鼠还处于懵懂状态时,DLS的多巴胺主要在获得水奖励时才出现一个短暂的峰值。随着学习的深入,多巴胺的响应开始 前移 ,在小鼠看到视觉刺激时就开始释放。这表明多巴胺正在帮助大脑建立刺激与未来奖励之间的联系。最关键的是,这种与刺激相关的多巴胺信号,完美地复刻了每只小鼠的行为策略。在一只 右侧关联 的小鼠大脑中,只有当右侧刺激出现时,DLS才会释放大量多巴胺;而当左侧刺激出现时,多巴胺却 无动于衷 。相反,在 平衡型 小鼠的大脑中,无论是左侧还是右侧的刺激,都能引发强烈的多巴胺响应。
为了排除这仅仅是行为表现差异(比如某一侧做得更好)导致的附带现象,研究人员巧妙地选取了 单边关联型 小鼠在某些天的数据,在这些天里,小鼠对两侧刺激做出正确反应的准确率几乎完全相同。即便在这种 表现匹配 的情况下,多巴胺信号依然表现出强烈的 偏科 只对它所 关联 的那一侧刺激做出反应。这证明,多巴胺编码的不是简单的 正确与否 ,而是个体所采纳的、高度特异性的 刺激-选择 关联规则。
更有趣的是,研究人员还对比了DLS和另一个纹状体亚区 背内侧纹状体(dorsomedial striatum, DMS)的多巴胺信号。他们发现DMS的多巴胺信号模式完全不同,它主要响应对侧(与记录半球相反一侧)的刺激,并且从学习一开始就几乎没有奖励响应。这表明,大脑不同区域的多巴胺信号扮演着不同的 教学 角色,DLS中的多巴胺信号似乎是塑造这种长期、个体化学习轨迹的关键。
至此,一个清晰的图景浮现出来:DLS多巴胺就像一位贴身教练,它不仅记录,更可能是在主动塑造每只小鼠的学习路径。早期的微小偏好,通过多巴胺系统的正反馈,被一步步放大和固化,最终形成了稳定而独特的学习策略。但这仍然是一个相关性的结论,要证明因果关系,还需要更直接的干预。
给点 阳光 就灿烂?多巴胺的教学语言,比奖励更精准
为了验证DLS多巴胺在学习中的 执教 作用,研究人员动用了光遗传学(optogenetics)这一强大的神经科学工具。他们可以像用遥控器开关灯一样,精确地控制特定神经元的活动。
实验一:关掉 教练 的指导
研究人员首先想知道,如果剥夺了DLS的多巴胺信号,小鼠还能学会任务吗?他们通过光遗传技术,在小鼠学习的全过程中持续抑制DLS中多巴胺的释放。结果是毁灭性的:这些小鼠虽然也进行了数千次尝试,但它们的学习曲线始终停留在50%的随机水平,完全没有学会利用视觉信息。然而,它们的运动能力并未受损,转动轮子的反应速度甚至和正常小鼠一样会随着训练而变快。这表明,DLS多巴胺对于建立 刺激-选择 这种认知层面的关联是绝对必要的。没有了这位教练,小鼠就成了 睁眼瞎 。
实验二:模拟 教练 的口令
这个实验是整个研究的点睛之笔。研究人员提出了一个大胆的假设:DLS多巴胺的教学信号可能比我们想象的更 智能 。它可能不是一个 一刀切 的全局奖励信号(比如 这次对了,所有相关的线索都加强 ),而是一个高度语境化的、异质性(heterogeneous)的教学信号。也就是说,它只会更新当前决策所依赖的那个特定关联。
为了验证这一点,他们对已经形成了 单边关联 策略的专家小鼠进行了干预。当这些小鼠在面对它们 不关联 的那一侧刺激而做出错误选择时,研究人员在结果揭晓的瞬间,用光精确地刺激DLS多巴胺的释放。这相当于人为地告诉大脑: 刚才这个选择,虽然没得到水,但也是个 好 选择。
如果多巴胺是一个通用的 做得好 信号,那么这种刺激应该会更新所有可能的关联,让小鼠在所有情况下都更倾向于做出那个选择。但结果并非如此!
当光刺激DLS多巴胺时,这种人为的多巴胺信号,仅仅提升了小鼠在面对那个特定刺激时做出错误选择的概率。也就是说,它精确地、只更新了 不关联的刺激 与 错误选择 之间的联系,而对其他情况(如没有刺激的试次)下的选择行为毫无影响。
作为对照,当研究人员直接给予水奖励时,水的奖励效应则完全不同。它像一个 万能钥匙 ,不仅提升了小鼠在面对那个特定刺激时的错误选择概率,还显著改变了它在没有刺激时的选择偏好,使整个心理测量曲线都发生了平移。
这个巧妙的对比实验,清晰地揭示了DLS多巴胺教学信号的本质。它不是一个像水奖励那样的 经典RPE 信号,而是一个 部分 或者说 归因 的RPE信号。它精确地将学习的更新 归因 于动物当前所使用的感觉线索,从而实现了对特定认知策略的精细雕琢。这解释了为什么 单边关联 的小鼠即使在获得奖励后,也学不会另一侧的关联 因为在那些试次中,它们根本没有 使用 那一侧的刺激作为决策依据,因此多巴胺这位 教练 也无从指导。
解密学习 黑箱 :用深度网络重现小鼠的 心路历程
手握丰富的行为学和神经活动数据,研究人员开始构建一个能够解释这一切的计算模型。他们首先尝试了标准的 浅层 强化学习模型,但发现这些模型无法重现小鼠学习轨迹的多样性。浅层模型要么学得太快太完美,要么就学不会,无法产生稳定的 单边策略 。
于是,他们构建了一个更符合大脑结构的深度强化学习(deep RL)模型。这个模型的 深度 体现在它包含一个隐藏层(hidden layer),这类似于大脑皮层和纹状体之间的多级信息处理。该模型巧妙地设计了两个并行的处理通路:一个是刺激通路(stimulus pathway),专门处理来自视觉刺激的信息;另一个是恒定通路(constant pathway),处理那些不随试验变化的背景信息(如代表 开始 的提示音)。这两个通路的信息在隐藏层整合,最终输出对左、右两个选择的价值评估,模型据此做出决策。
最关键的创新在于模型的学习规则。研究人员摒弃了单一的、全局的RPE,为模型设计了异质性教学信号(heterogeneous teaching signals),这与他们在实验中观察到的DLS多巴胺信号特性完全一致:更新 皮层 层面(模型的第一层权重)的连接时,使用一个基于所有信息的 总体RPE ;而更新 纹状体 层面(模型的第二层权重)的连接时,则使用路径特异的 部分RPE 。刺激通路的更新只依赖于基于刺激信息的RPE,而恒定通路的更新则依赖于基于背景信息的RPE。
这个被研究人员称为 导师-执行者 (tutor-executor)的网络模型,取得了惊人的成功。
它不仅完美复现了小鼠学习轨迹的多样性和系统性,模拟出的网络也分化出了 平衡型 和 左/右单边关联型 ,并且其早期的偏好同样能强烈预测最终的学习策略(早期偏好与晚期偏好的相关系数 r = -0.83,与真实数据趋势一致)。同时,模型中 刺激通路 的RPE信号,其动态演变过程与真实记录到的小鼠DLS多巴胺信号高度吻合。最重要的是,该模型是唯一能够解释光遗传学实验结果的,精确模拟了对特定通路信号干预和全局奖励信号干预的不同效果。
这个模型的成功,意味着研究人员不仅 知其然 (观察到了现象),更 知其所以然 (找到了可能的内在机制)。它表明,大脑的学习过程,可能真的就像一个拥有隐藏层和异质性教学信号的深度网络。
学习之路的隐藏地图: 鞍点 如何塑造你的每一步
这个深度模型为何能如此成功?为了探究其背后的数学原理,研究人员将其学习过程视为一个在高维权重空间中行进的动态系统,并分析了其 能量景观 。他们发现,这个景观并非一个平滑的斜坡,而是布满了关键的拓扑结构 鞍点(saddle points)。
在数学上,鞍点是一个在某些维度上是局部最小值,而在另一些维度上是局部最大值的点,就像一个马鞍的中心。在学习的语境下,一个鞍点代表了一个不稳定的、中间状态的策略。当学习过程进行到鞍点附近时,梯度变得很小,学习会暂时减速,陷入一个平台期(plateau),仿佛在 思考 下一步该往哪走。随后,系统会沿着鞍点 最陡峭的下坡路 (不稳定流形)迅速滑向下一个状态。
研究人员发现,他们的深度模型中存在一整套等级化的鞍点,这些鞍点共同构成了一张学习的 隐藏地图 :
学习从代表 天真 状态的起点(0号固定点)开始,由于随机性,网络会先滑向一个代表 左偏好 或 右偏好 的偏好形成鞍点(1R/1L号)。接着,这是形成 单边策略 的关键阶段,网络会大概率走向单边关联鞍点(2R/2L, 3R/3L号),在这些阶段,网络开始学习特定刺激与选择的关联,并最终形成稳定的 单边关联 策略。最后,学习的终点(4号固定点)是代表 专家 状态的全局最小值。只有那些没有形成强烈早期偏好的 平衡 网络,才会直接滑向这个终点。
这套鞍点结构完美地解释了学习过程中的两大核心特征:
1. 多样性:初始状态的微小随机扰动(相当于小鼠的早期偏好),决定了学习轨迹会沿着哪一条由鞍点构成的 山谷 前进,从而导致了最终策略的多样性。
2. 系统性:学习的轨迹并非随机游走,而是被这张由鞍点构成的 地图 严格引导的。从一个鞍点到下一个鞍点的转移是有序且大概率的,这解释了为何早期偏好能够预测晚期策略。
此外,鞍点的存在也解释了小鼠学习过程中常见的 平台期 现象。当学习轨迹接近鞍点时,学习速度自然放缓,对应了行为上正确率停滞不前的阶段。这不仅在模型中被观察到,也与真实小鼠的学习曲线(在早期正确率长期维持在50%左右)相符。
最后的思考
这项发表于《细胞》的研究,以前所未有的深度和广度,描绘了一幅关于长期学习的壮丽画卷。它告诉我们,大脑的学习并非一个简单的、被动响应奖励的黑箱。相反,它是一个主动的、高度个体化的构建过程,由像多巴胺这样的神经递质,以一种远超我们想象的精准和巧妙的方式进行引导。
DLS多巴胺所编码的这种 部分 或 归因 的教学信号,可能是大脑解决 信用分配 (credit assignment)难题的一个关键机制 即如何准确地知道是哪个线索或动作导致了最终的成功或失败。而深度网络中的鞍点理论,则为理解学习过程中的多样性、系统性和阶段性平台期提供了一个强大而优美的数学框架。
这项工作不仅加深了我们对学习和决策神经基础的理解,也为教育学、人工智能等领域带来了深刻的启示。它提醒我们,在教学和训练中,或许应该更加关注和利用个体的早期偏好和自发形成的策略,因为这可能并非 弯路 ,而是通往专精的、最高效的个体化路径。同时,它也为设计更类脑、更高效的强化学习算法指明了新的方向。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

- 相关报道
-
- 《科学》子刊:你不许吃!中山大学团队发现新的“巨噬细胞吞噬检查点” (2025-06-22)
- Cell:学习中的“蝴蝶效应”——早期微小偏好如何通过多巴胺滚雪球,决定你的最终技能风格 (2025-06-22)
- 《肝病学》:为T细胞铺路!中山大学团队发现,抗血管+免疫治疗会促进高内皮微静脉募集,向肿瘤源源不断输送T细胞 (2025-06-22)
- 80后中国女科学家研究成果一天内同时登上Cell、Science、Nature,让我们首次看清已灭绝的丹尼索瓦人样貌 (2025-06-22)
- Science重磅:in vivo CAR-T,在体内成功改造T细胞治疗癌症及自身免疫病,已开展临床试验 (2025-06-21)
- 研究揭示连城白鸭独特外貌的形成机制 (2025-06-21)
- EGFR突变肺腺癌转化型小细胞肺癌研究新突破:转录组分析揭示不同亚组及精准治疗机会 (2025-06-21)
- 「心情不好,喝几杯」到底有没有用?最新研究:首次绘制出酒精-抑郁共病的完整神经通路,证实借酒消愁只能愁更愁 (2025-06-20)
- CD:大水冲了龙王庙!科学家首次证实,成熟NK细胞会将杀伤性T细胞拦在肿瘤外,促进免疫治疗耐药 (2025-06-20)
- Genome Res:科学家揭秘前列腺癌中的“激素共舞”——雄激素受体与糖皮质激素受体的复杂互动 (2025-06-20)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040