您的位置:医药网首页 > 医药资讯 > 医药行业分析 > Nature:破解大脑的底层学习逻辑——生物神经网络早已掌握“预训练+微调”的高效模式

Nature:破解大脑的底层学习逻辑——生物神经网络早已掌握“预训练+微调”的高效模式

不给糖 的对照组,竟成了 主角 ?

为了探究大脑学习的秘密,研究人员设计了一个巧妙的虚拟现实(virtual reality, VR)实验。他们让小鼠在一个虚拟的线性走廊里奔跑,走廊的墙壁上会呈现两种完全不同的自然纹理图案 我们姑且称之为 叶子 (leaf)和 圆圈 (circle)。

实验设置了几个关键的小鼠分组,这正是整个的核心所在:

任务组(监督学习组):这组小鼠是 天选之子 。当它们跑进 叶子 走廊时,在某个随机位置会听到一个提示音,之后只要舔舐水管就能获得甜美的水作为奖励。而当它们进入 圆圈 走廊时,则没有任何奖励。这是一个典型的监督学习任务,小鼠需要学会将 叶子 纹理与 奖励 关联起来。

无监督组:这组小鼠的经历和任务组几乎一模一样,它们同样在 叶子 和 圆圈 走廊里奔跑,也同样会听到提示音,但关键区别在于 无论在哪个走廊,它们都得不到任何水奖励。它们只是纯粹地、被动地体验着这两种视觉环境。

光栅对照组:为了排除简单VR环境暴露带来的影响,这组小鼠看到的不是复杂的自然纹理,而是由简单黑白条纹构成的 光栅 走廊,同样没有任何奖励。

经过大约两周的训练,任务组的小鼠不负众望,成为了 学霸 。它们学会了在进入 叶子 走廊后,一听到提示音就疯狂地舔水管,期待奖励的到来。数据显示,它们在奖励到来前 预先舔舐 的试验比例,从训练前的几乎为零飙升到了接近100%。而在 圆圈 走廊里,它们则显得兴致缺缺,几乎不舔。这表明,它们的大脑成功地建立了 叶子 纹理与奖励之间的强关联。

真正的惊喜发生在研究人员检测它们大脑神经活动变化的时候。他们利用双光子显微镜技术,同时记录了小鼠视觉皮层中多达9万个神经元的活动。他们想知道,哪些神经元在学习后能够区分 叶子 和 圆圈 ?

研究人员计算了一个名为 选择性指数 (selectivity index, d )的指标,用以衡量单个神经元对两种刺激的反应差异。指数越高的神经元,就越能明确地区分这两种纹理。

结果令人瞠目结舌。在任务组小鼠的大脑中,一个被称为 内侧高阶视觉区 (medial higher visual areas, medial HVAs)的区域,在学习后涌现出大量对 叶子 和 圆圈 有高度选择性的神经元。这完全符合预期,毕竟它们是靠区分这两种纹理来获取奖励的。

然而,当研究人员把目光投向那群 只看不练、不给糖吃 的无监督组小鼠时,一个惊人的事实出现了:它们大脑内侧高阶视觉区的神经元,也发生了几乎一模一样的变化!同样是这个区域,同样是选择性神经元数量的大幅增加。与之形成鲜明对比的是,光栅对照组的小鼠大脑则毫无波澜。

这意味着,驱动视觉皮层神经可塑性、使其能够更好地区分不同视觉纹理的,似乎并不是 奖励 这个监督信号,而仅仅是 反复暴露于这些纹理 这一无监督过程本身。在这个实验里,那群本应作为 对照 的无监督组小鼠,竟意外地揭示了学习的核心秘密,仿佛成了实验的真正 主角 。大脑似乎在说: 你给不给糖无所谓,我看多了,自己就懂了。

大脑在 认路 还是在 认图 ?

这个发现引出了一个更深层次的问题:大脑到底在学习什么?我们知道,小鼠在VR走廊里奔跑,这个过程既有视觉信息(墙上的纹理),也有空间信息(在走廊中的位置)。那么,大脑神经元的这种可塑性,究竟是源于对视觉特征的学习,还是对空间序列的记忆?换句话说,大脑是在 认图 (识别 叶子 这种视觉模式),还是在 认路 (记住 在某个空间序列下会看到什么 )?

为了解开这个谜题,研究人员进行了一项巧妙的 解耦 测试。他们在小鼠学会区分 叶子1 (leaf1)和 圆圈1 (circle1)之后,引入了两种新的、不带奖励的测试走廊:

● 叶子2(leaf2):墙壁纹理同样是叶子,但使用的是从同一张原始照片上截取的不同部分,因此视觉上与 叶子1 相似,但空间上每一处的具体图案都完全不同。

● 圆圈2(circle2):与 圆圈1 同理,是新的圆圈纹理。

首先看小鼠的行为反应。当它们进入 叶子2 走廊时,它们依然会像在 叶子1 走廊里那样表现出期待和舔舐行为。而进入 圆圈2 走廊时,则和 圆圈1 一样冷漠。这说明,小鼠的行为决策是基于视觉上的 类别 相似性(都是叶子),而不是基于具体的空间图案排布。

那么,神经活动是否也遵循同样的逻辑?研究人员首先检验了 空间序列假说 。他们将在 叶子1 走廊中表现出有序放电的神经元,按照其放电位置进行排序,形成一个特定的 激活序列 。如果大脑是在学习空间序列,那么当小鼠进入同样是 叶子 类别的 叶子2 走廊时,这些神经元也应该大致按照相同的顺序被激活。

然而,数据显示,这个假说不成立。神经元在 叶子1 和 叶子2 走廊中的激活顺序几乎毫无关联,它们之间的相关性系数(r)接近于零(例如,在任务组小鼠中,该相关性仅为-0.03)。相比之下,将 叶子1 的试验随机分成两半进行比较,其激活序列的相关性则高达0.92。这有力地证明,神经元编码的不是一个固定的空间路径图。

接下来,研究人员转向了 视觉特征假说 ,并采用了一种更强大的分析方法 编码方向 (coding direction)。这个概念听起来很酷,可以通俗地理解为:研究人员在庞大的神经活动数据中,找到了一个能够最好地区分 叶子 和 圆圈 的 坐标轴 。这个轴的一端代表 极度像叶子 ,另一端代表 极度像圆圈 。任何时刻的大脑活动,都可以在这个轴上找到一个投影点,告诉我们此刻大脑 认为 它看到的东西有多 叶子 或多 圆圈 。

当研究人员将小鼠在 叶子2 走廊中的神经活动投影到这个轴上时,结果非常清晰:这些活动点坚定地落在了 叶子 那一侧,与 叶子1 的活动区域高度重合。而在 圆圈2 走廊中的活动则落在了 圆圈 一侧。这个结果在任务组、无监督组甚至是从未见过这些纹理的 初始 (naive)组小鼠中都完全一致。

这一系列的证据指向了一个明确的结论:视觉皮层学习到的是抽象的视觉表征,而不是具体的空间信息。大脑真的在 认图 ,而非 认路 。它学会了识别 叶子 这个视觉概念,无论这些叶子以何种方式排列组合。

喜新 也 不厌旧 :新旧知识如何共存?

我们已经知道,大脑能够通过无监督学习识别视觉类别。但学习并非一成不变,当环境发生细微变化时,大脑又该如何应对?在任务组小鼠的后续训练中,它们需要学会更精细的辨别:在 叶子1 走廊舔舐有奖励,而在长得非常像的 叶子2 走廊舔舐则没有奖励。这是一个从 粗略分类 到 精细辨别 的进阶过程。这个过程背后,又隐藏着怎样的神经机制?

研究人员首先观察了大脑对新刺激 叶子2 的初始反应。当 叶子2 作为一种全新刺激出现时,初级视觉皮层(V1)和外侧高阶视觉区(lateral HVAs)的许多神经元表现出异常强烈的活动。这是一种 新奇信号 (novelty signal),仿佛大脑在惊呼: 嘿!这是个新东西! 这种对新奇事物的强烈反应在任务组和无监督组中都存在。然而,随着对 叶子2 的反复暴露,这种新奇反应会逐渐减弱,大脑似乎在说: 哦,原来又是一片叶子,见怪不怪了。

更有趣的是,为了能精确地区分 叶子1 (有奖)和 叶子2 (无奖),大脑必须对它们原本相似的神经表征进行改造。研究人员发现了一种被称为 正交化 (orthogonalization)的现象。这个词听起来很数学,但可以用一个生动的比喻来理解。

想象一下,起初,大脑把所有关于 叶子 的信息都放在一个叫 叶子 的文件夹里, 叶子1 和 叶子2 的文件混在一起,很难区分。为了完成精细辨别的任务,大脑做了一个聪明的操作:它没有把 叶子2 的文件继续塞进 叶子 文件夹,而是为它创建了一个全新的、独立的文件夹。这样一来,两个文件的存储路径就完全不同了,变得 正交 ,极易区分。

在神经层面,这个过程体现在 编码方向 上。最初,在未经训练的小鼠大脑中, 叶子2 的神经活动投影点紧紧地挨着 叶子1 的投影点,表明它们被大脑视为非常相似的东西。然而,经过一周针对 叶子2 的无奖励训练后(无论是在任务组还是无监督组), 叶子2 的神经表征发生了戏剧性的 漂移 。在 叶子1-圆圈1 的编码轴上,它不再与 叶子1 为伍,而是向着中间的 零点 (即与两者都不像)甚至略微偏向 圆圈 的方向移动。

通过这种方式,大脑主动拉大了 叶子1 和 叶子2 在神经表征空间中的距离,使它们变得更容易区分。这个 正交化 的过程,是实现精细辨别的关键一步。而且,令人惊讶的是,这个过程同样不完全依赖于奖励。即使在无监督组中,只要持续暴露于这两种刺激,大脑也会自发地进行这种表征优化。这再次凸显了无监督学习在塑造精细神经回路中的强大力量。

唯一的 VIP通道 :奖赏信号藏在哪里?

至此,我们发现监督学习和无监督学习在视觉皮层的很多方面都表现出惊人的一致性。那么,奖励这个 监督信号 难道就毫无用武之地吗?它是否在大脑的某个角落开辟了一条独一无二的 VIP通道 ?

为了找到这条 VIP通道 ,研究人员使用了一种名为Rastermap的数据可视化和聚类方法,它能从海量神经元的复杂放电模式中发现有意义的群体行为。这一次,他们终于找到了一个只在任务组小鼠大脑中存在的独特信号。

他们发现,在 前侧高阶视觉区 (anterior HVAs)中,存在一个特殊的神经元集群。这些神经元的行为模式非常奇特:

1.高度选择性:它们只在有奖励的 叶子1 走廊中被激活,在 圆圈1 走廊中则保持沉默。

2.预测性激活:它们的活动不是在奖励到来时才出现,而是在听到提示音后、奖励实际发生前,就开始逐渐增强,形成一个 爬坡 (ramping)信号。

3.奖励后抑制:一旦奖励(水)被送达,它们的活动会立刻被强烈抑制,戛然而止。

这完全就是一个经典的 奖励预测误差 (reward prediction error)信号。这些神经元编码的不是视觉刺激本身,也不是舔舐这个动作,而是对 即将到来的奖励 的预期。当预期强烈时,它们就活跃;当奖励兑现、预期满足后,它们就 下班 。

数据显示,这种编码奖励预期的神经元数量,在学习后,仅在任务组小鼠的前侧高阶视觉区显著增加。而在无监督组小鼠中,则几乎找不到这类神经元。这表明,前侧高阶视觉区可能就是监督学习的 VIP通道 ,专门处理与奖励、动机和预期相关的任务信息。

为了进一步确认这个信号不是简单的 运动信号 (比如,只是驱动舔舐动作),研究人员做了更深入的分析。他们发现,神经活动的 爬坡 通常比小鼠开始舔舐要早几秒钟,说明它驱动了预期,而不仅仅是动作。更有说服力的是,在一些小鼠犯错的试验中 比如在不该舔的 叶子2 走廊里也舔了水管 这个奖励预测信号依然会出现!这表明,只要小鼠 认为 有奖励,这个信号就会被激活,它关联的是主观的 期望 ,而非客观的奖励本身或舔舐动作。

这个发现完美地将监督学习和无监督学习区分开来:无监督学习负责构建和优化大脑对世界的基本视觉表征( 这是什么 ),而监督学习则在此基础上,叠加了一个与任务目标和奖励预期相关的 价值 层( 这对我意味着什么 )。两者各司其职,又紧密合作,共同构成了大脑高效学习的蓝图。

预习 的惊人效果:学习效率加倍!

理论上,无监督的 预习 应该能让后续的学习事半功倍。但这真的会在实际行为中体现出来吗?为了验证这一点,研究人员进行了一场终极对决 一场纯粹的行为学实验。

他们招募了三组全新的小鼠,让它们学习一个简化的视觉辨别任务(奖励被固定在走廊的后半段,且取消了提示音)。这三组小鼠的 背景 各不相同:

1.自然纹理预训练组:在正式任务开始前,这组小鼠在VR环境中自由探索了10天,墙壁上呈现的是没有奖励的自然纹理(叶子/圆圈)。这相当于进行了充分的 无监督预习 。

2.光栅预训练组:这组小鼠同样预训练了10天,但看到的是简单的光栅条纹。

3.无预训练组:这组小鼠是 小白 ,直接开始正式的任务学习。

比赛开始!在任务学习的第一天,结果就高下立判。无预训练组和光栅预训练组的小鼠表现得十分迷茫,它们在两个走廊里都胡乱舔舐,完全没有辨别的迹象。

而经过自然纹理 预习 的那组小鼠,则表现出了惊人的学习速度。仅仅在第一天的训练中,它们就已经开始显现出明显的辨别能力,在奖励走廊的舔舐次数显著多于非奖励走廊。其中一只小鼠甚至在短短10个试次(trials)后,就迅速停止了在非奖励走廊的舔舐行为。

随着训练的进行,这种差距愈发明显。仅仅5天后,虽然所有组别的小鼠最终都学会了任务,但预训练组的学习曲线要陡峭得多,它们达到高水平表现所用的时间显著缩短。数据显示,比较它们在奖励和非奖励走廊中舔舐反应的差异,预训练组的这一差异值增长速度远超其他两组。

这个实验结果强有力地证明了无监督预训练的巨大价值。大脑通过在没有奖励的环境中自由探索,已经悄悄地构建了对视觉世界的基本模型。当后续需要利用这些知识来完成特定任务时,它就能够迅速地调取这些预先形成的神经表征,从而极大地加速了学习进程。这就像一个提前预习了课本的学生,在课堂上听老师讲课时自然会觉得更轻松、掌握得更快。

大脑的 自监督 超能力

这项研究如同一部精彩的侦探小说,层层递进,最终为我们描绘了一幅关于大脑学习的全新画卷。它告诉我们,我们大脑的学习机制远比想象中更智能、更高效。

首先,大部分驱动视觉皮层发生变化的神经可塑性,源于无监督学习。大脑是一位天生的 数据科学家 ,它不需要时刻都有奖励作为 标签 ,就能从海量的原始感官数据中,自动提取出有意义的特征和结构。

其次,这种学习是视觉性的,而非空间性的。大脑致力于构建一个关于 世界看起来是怎样 的通用模型,而不是一张张具体的 路径地图 。这使得它获得的知识具有更强的泛化能力。

再次,监督学习并未被完全取代,而是在无监督学习构建的坚实基础上,增加了一个至关重要的 顶层应用 。它在前侧高阶视觉区开辟了一条专门处理任务价值和奖励预期的 VIP通道 ,指导行为向着最有利的目标前进。

最重要的是,这种 无监督预训练 + 监督微调 的模式,极大地提升了学习效率。大脑的这种工作方式,与当前人工智能领域最前沿的 自监督学习 (self-supervised learning)思想不谋而合。像BERT、GPT等强大的语言模型,以及各种先进的视觉模型,正是通过在海量无标签数据上进行 预训练 ,来学习通用的知识表征,然后再在具体的下游任务上进行 微调 ,从而取得了巨大的成功。

原来,我们费尽心机设计的先进算法,竟是大脑数十亿年来一直在使用的 古老智慧 。大脑的这种 偷懒 哲学 在日常的、无目的的观察中完成大部分基础学习工作 或许正是它能够在复杂多变的世界中保持惊人适应性和灵活性的关键所在。未来的研究,或许将进一步揭示这种内在学习机制的更多奥秘,并为我们开发更智能、更高效的人工智能系统带来深刻的启示。

版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

医药网新闻
返回顶部】【打印】【关闭
扫描100医药网微信二维码
视频新闻
图片新闻
医药网免责声明:
  • 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
  • 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040