您的位置:医药网首页 > 医药资讯 > 医药营销 > Nature Methods:从“我猜”到“我证”的进化——当AI学会主动查资料,我们离“可信科研伙伴”更近一步

Nature Methods:从“我猜”到“我证”的进化——当AI学会主动查资料,我们离“可信科研伙伴”更近一步

AI侦探的 自我修养 :请用证据说服我

如果你委托一位顾问分析一份可疑的公司部门员工名单,希望找出这个部门的核心业务。一位普通的顾问可能会凭借他的商业嗅觉和广泛的知识,给你一个听起来很不错的答案,比如 他们似乎在搞高风险的金融衍生品创新 。但一位顶级的顾问,则会说: 我初步判断他们在进行金融衍生品创新,但请给我一点时间,我需要去查阅公司的内部交易记录、核对他们的项目报告,并与市场监管数据进行交叉验证。

GeneAgent扮演的,正是后者的角色。它的核心优势,不在于其基础模型GPT-4有多强大,而在于它拥有一套精密的、自动化的 自我验证 (self-verification) 工作流程。这个流程,彻底改变了AI处理科学问题的方式,从 我猜 变成了 我证 。

这个巧妙的流程可以分解为几个关键步骤,构成了一个完整的 提出假设-验证-修正 的闭环:

第一步:生成初步假设 (Generation)

当研究人员将一个基因集(例如,一个包含数十个基因的列表)输入GeneAgent时,它首先会像标准的GPT-4一样,进行一次 头脑风暴 。它利用其内部庞大的知识库,生成一个初步的生物学过程名称(比如 受体酪氨酸激酶信号通路, RTK signaling ),并附上一段详细的分析叙述,解释为什么它认为这些基因与该功能相关。这是它的 第一印象 ,也是它后续所有工作的起点,研究人员称之为 原始输出 (raw output) 。

第二步:解构论断,提取 可验证声明 (Claim Extraction)

接下来,GeneAgent会立刻切换到 怀疑模式 。它不会满足于自己生成的那个看似完美的答案,而是会像一个严谨的论文审稿人一样,将自己的分析叙述逐句解构,提取出其中所有可以被验证的核心论断,也就是 声明 (claims) 。例如,原始叙述中可能有这样一句话: 基因ERBB2、ERBB4、FGFR2、KRAS等都参与了RTK信号通路。 这句话就构成了一个清晰、可验证的声明。这个过程至关重要,它将一段复杂的、描述性的文本,转化成了一系列可以被事实 真伪裁决 的具体命题。

第三步:启动 核查引擎 ,自主对接领域数据库 (Autonomous Verification)

这是GeneAgent最激动人心的部分。它会激活一个名为 selfVeri-Agent 的子模块,这个模块就像一个内置的、全天候工作的 事实核查员 。对于上一步提取的每一个声明,selfVeri-Agent会启动它的 核查引擎 。它不会依赖于GPT-4自身的记忆,因为它知道这些记忆可能包含 幻觉 。相反,它会像一个训练有素的家一样,主动访问并查询一系列权威的、由领域专家手动维护的生物学数据库。

这个过程是完全自主的。在论文中,研究人员为GeneAgent配置了多达18个生物医学数据库的访问接口 (APIs),涵盖了从基因功能(如GO, KEGG, Reactome)、通路分析(如WikiPathways)到蛋白质相互作用 (PPI)、基因疾病关联(如Gene-disease)等方方面面。

让我们回到那个关于 RTK信号通路 的声明。selfVeri-Agent会提取出声明中的基因列表(ERBB2, ERBB4等),然后通过API向g:Profiler或Enrichr等富集分析工具发出查询。这些工具会返回一个基于当前基因列表的、统计上最显著的生物学功能列表。在研究展示的一个真实案例中,selfVeri-Agent发现,返回的最相关的通路实际上是 MAPK信号通路(MAPK signaling pathway) 。虽然MAPK通路是RTK通路的下游,二者密切相关,但这并不等同于直接证明了原始声明。因此,selfVeri-Agent会在其内部的 验证报告 (verification report) 中做出裁决: 该声明无法被直接证实 (The claim cannot be confirmed) 。

验证报告的结论分为几类: 支持 (supported) 、 部分支持 (partially supported) 、 驳斥 (refuted) 或 未知 (unknown) 。每一个裁决,都建立在从外部数据库获取的客观证据之上。

第四步与第五步:迭代修正与最终输出 (Modification and Summarization)

拿到这份包含所有声明裁决的 验证报告 后,GeneAgent会重新审视自己的原始答案。如果核心声明被 驳斥 或 无法证实 ,它就会修改甚至完全推翻自己最初的假设,并生成一个新的、更准确的生物学过程名称和分析叙述。这个修正过程同样会触发新一轮的自我验证,确保修改后的答案更加可靠。这个 生成-验证-修正 的循环会持续进行,直到得出一个能够经受住数据库证据考验的结论。

最后,GeneAgent会整合所有轮次的验证报告,生成一份最终的、经过充分验证的分析结果。这份结果不仅包含一个精炼的生物学过程名称,还有一段详尽的、有据可查的分析叙述,让研究人员清楚地知道每一个结论的证据来源。

通过这个流程,GeneAgent将一个可能充满 幻觉 的黑箱模型,改造成了一个透明、严谨、可追溯的科学分析系统。它不再是一个夸夸其谈的 万事通 ,而是一个勤奋、审慎、尊重证据的 科研助理 。

度的较量:GeneAgent与GPT-4的正面交锋

一套巧妙的理论框架,必须经过严格的实践检验才能证明其价值。研究人员设计了一系列严苛的基准测试,将GeneAgent与未经改造的、使用相同核心模型(GPT-4)的 标准 方法进行了全方位的正面对决。测试所用的基因集来自三个权威来源:由文献整理的GO数据集(1000个),基于蛋白质组学分析的NeST数据集(50个),以及描述分子功能的MSigDB数据集(56个)。这些基因集的大小从3个基因到456个基因不等,平均包含约51个基因,每一个基因集都有一个领域专家公认的 标准答案 (ground truth)。

文本相似度对决:ROUGE得分的压倒性优势

首先是ROUGE得分,这是一种衡量机器生成的文本与参考答案在多大程度上重叠的指标,可以理解为一种 内容匹配度 的评估。结果清晰地显示了GeneAgent的优越性。以MSigDB数据集为例,在衡量最长公共子序列的ROUGE-L指标上,标准GPT-4的得分是0.239,而GeneAgent则达到了0.310;在衡量二元词组(2-gram)匹配度的ROUGE-2指标上,GeneAgent的得分更是从0.074跃升至0.155,提升超过一倍。在所有三个数据集上,GeneAgent的ROUGE得分都显著高于标准GPT-4,这表明经过自我验证后,GeneAgent生成的生物学过程名称在用词和结构上都更接近于 标准答案 。

语义相似度比拼:更深刻的 意义 理解

然而,仅仅词语重叠是不够的,更重要的是 意思 对不对。研究人员使用了先进的生物医学文本编码器MedCPT来计算生成答案与标准答案之间的 语义相似度 。这个指标能够超越字面上的差异,捕捉两者在生物学意义上的接近程度。

结果再次印证了GeneAgent的强大。在所有三个数据集上,GeneAgent生成的答案都表现出与标准答案更高的一致性。例如,在NeST数据集上,GeneAgent的平均语义相似度为0.761,而标准GPT-4为0.708。

更有说服力的是高分段的案例数量。当相似度分数超过0.9(代表生成的名称与标准答案非常接近)时,GeneAgent产生了170个这样的高分案例,而标准GPT-4只有104个。此外,GeneAgent甚至在15个案例中实现了与标准答案100%的语义相似度,而标准GPT-4只有3个。这表明,GeneAgent不仅平均表现更好,在高精度要求下的表现也更为出色。

背景排名测试:在海量选项中脱颖而出

为了进一步展示其性能的实际意义,研究人员设计了一个极具挑战性的 背景语义相似度分布 测试。他们将AI生成的答案,与一个包含超过1.2万个候选生物学术语的 背景噪音库 进行比较,然后看AI答案与标准答案的相似度在这个巨大的分母中能排到什么样的位置(百分位排名)。一个高的百分位排名,意味着这个答案在海量可能的选项中,是与正确答案最接近的之一。

这项测试的结果极具震撼力。在所有1106个测试基因集中,GeneAgent生成的名称有76.9%(850个)的相似度分数排进了所有候选术语的前90%。相比之下,标准GPT-4的这一比例为74.5%(824个)。

当标准提高到 顶尖水平 ,即前98%时,GeneAgent的优势变得更加明显。它有675个基因集的答案达到了这一顶尖水平,而标准GPT-4只有598个。更令人印象深刻的是,有82个基因集,GeneAgent给出的答案的相似度排名达到了完美的100%,即在1.2万多个选项中,它的答案与标准答案的语义相似度是最高的。而标准GPT-4做到这一点的案例数仅为43个,几乎只有GeneAgent的一半。

功能摘要准确性:自我验证报告的附加价值

GeneAgent的自我验证过程不仅能修正结论,其产生的 验证报告 本身也是一份宝贵的财富。研究人员借鉴了另一项名为SPINDOCTOR的研究思路,测试了这份报告能否作为一份高质量的 基因功能摘要 (gene function synopsis) ,帮助LLM更准确地总结基因集的富集分析结果。

他们让GPT-4在三种情况下对MSigDB中的56个基因集进行功能摘要:(1)不提供任何额外信息;(2)提供一份传统的 本体论摘要 ;(3)提供GeneAgent生成的 验证报告 。然后,他们将GPT-4总结出的功能术语与通过标准GSEA方法计算出的、统计显著的富集术语(P值 0.05)进行 精确匹配 比较。

结果差异巨大。在不提供任何摘要的情况下,GPT-4总结的术语准确率只有56.0%。当使用GeneAgent的 验证报告 作为摘要时,准确率飙升至80.7%。这清晰地表明,GeneAgent的自我验证过程所收集和整理的证据,本身就是一份高度浓缩、准确可靠的生物学信息,能够有效引导LLM减少幻觉,做出更准确的判断。

从基准测试到真实发现:AI在新大陆的探索

在受控的基准测试中取得高分固然重要,但一个科研工具的最终价值,在于它能否在真实的、充满未知的前沿研究中发挥作用。为了检验GeneAgent的 实战能力 ,研究人员将其应用到了一个极具挑战性的真实科研场景中 分析来自小鼠瘤细胞系B2905的七个全新的基因集。

这个研究背景本身就很有趣。研究人员正在研究肿瘤内部的 亚克隆进化 (sub-clonal evolution) ,即一个肿瘤中的癌细胞是如何分化成不同 派系 的。他们识别出了对治疗反应不同的三个亚克隆:高攻击性且耐药 (high aggression and resistant, HA-R)、高攻击性且敏感 (high aggression and sensitive, HA-S),以及低攻击性且敏感 (low aggression and sensitive, LA-S)。这七个基因集,正是从这三个亚克隆中鉴定出的、与它们各自生物学特性相关的上调或下调的基因。对于这些新发现的基因集,它们的精确功能在很大程度上是未知的,这为GeneAgent提供了一个绝佳的展示舞台。

更深邃的洞察力:一个关于线粒体的案例

在对一个来自 低攻击性且敏感 (LA-S) 亚克隆的基因集(包含24个基因,编号mmu05022)的分析中,GeneAgent与标准GPT-4的表现差异体现得淋漓尽致。

标准GPT-4给出的答案是 氧化磷酸化 (Oxidative phosphorylation) 。这是一个正确的、但相对宽泛和高阶的生物学过程。它就像是说一个部门在 搞金融 ,虽然没错,但不够具体。

而GeneAgent给出的答案是 神经退行和呼吸链复合物 (Neurodegeneration and respiratory chain complex) 。这个答案显然更加具体和深入。更重要的是,在它的分析叙述中,它准确地指出了基因集中多个基因分别属于线粒体呼吸链复合物I、IV和V的亚基。例如,它明确提到了基因Ndufa10(编码NADH:泛醌氧化还原酶亚复合体A10)参与了这一过程。而在标准GPT-4的分析中,这个基因的功能被忽略了。同样,对于另一个基因Atxn1l(编码ataxin 1-like),GPT-4没有将其纳入 神经退行 的功能中,而GeneAgent则做到了。

这个案例生动地展示了GeneAgent的优势:它不仅能给出一个更精确的 总称 ,还能深入到细节中,揭示特定基因在这一过程中的具体角色。这种 既有森林,又有树木 的分析能力,对于启发研究人员的后续实验设计至关重要。

专家评审的认可:在 相关性 与 全面性 上完胜

为了更客观地评估这些真实世界案例的分析质量,研究人员招募了两位专门从事临床前治疗测试,聚焦于基因组和免疫学分析的领域专家,对GeneAgent和GPT-4的输出进行 盲审 比较。专家们不知道哪个结果来自哪个模型,他们依据四个标准进行评判:相关性 (Relevance)、可读性 (Readability)、一致性 (Consistency)和全面性 (Comprehensiveness)。

在七个案例的对决中,结果非常明确。虽然两者在 可读性 和 一致性 上表现都很好,但在更关键的 相关性 和 全面性 上,GeneAgent获得了压倒性的胜利。专家们一致认为,GeneAgent的分析结果与基因集的潜在功能更相关,并且提供了更全面的基因功能信息。专家们将这种优势归因于GeneAgent能够在验证阶段访问领域特定的数据库,从而获得GPT-4在其通用训练数据中可能不具备的、更深入的生物学知识。

自我纠错机制的铁证:那被 驳斥 的8%

GeneAgent之所以能提供更可信的答案,关键在于其内部的 纠错 机制。研究人员对GeneAgent在处理全部1106个基因集时内部发生的情况进行了统计,结果令人印象深刻。

在整个测试过程中,GeneAgent总共从自己的原始输出中生成并审查了15,903个 声明 。其中,99.6%的声明被其 selfVeri-Agent 模块成功处理并返回了验证报告。在这近16,000次 自我审查 中,有84%的声明被数据库证据 支持 ,1%被 部分支持 。

最关键的数字是,有8%的声明被明确 驳斥 (refuted) 。这被驳斥的8%,就是标准LLM中可能产生的 幻觉 。它们在没有外部验证的情况下,本会成为最终答案的一部分,误导研究人员。但GeneAgent的自我验证机制像一道坚固的防火墙,在这些虚假信息输出之前就将其拦截并修正。研究人员发现,这些被驳斥的声明分布在794个不同的基因集中,其中88.5%的案例在后续的修正步骤中得到了修改。

为了确保这套自动裁决系统的可靠性,研究人员还随机抽取了10个基因集(共132个声明)的验证报告,进行了一次人工 复核 。结果显示,GeneAgent自动做出的裁决(支持、驳斥等)有92%是正确的。这一高达93.9%的标注者间一致性评分,证明了GeneAgent的自我验证过程本身是高度可靠的。

一个AI新物种的诞生:从 万事通 到 专家助理

GeneAgent的出现,其意义远不止于提供了一个更好的基因集分析工具。它揭示了未来AI在复杂科学领域中可能扮演角色的深刻转变。

在GSEA巨人的肩膀上看得更远

传统的GSEA是功能基因组学研究的基石,它为我们提供了统计上可靠的富集分析结果。然而,GSEA的输出通常是一张长长的、由术语和P值构成的表格,它告诉我们 什么 (what) 是显著的,但很少解释 为什么 (why) 。研究人员需要花费大量精力去这些术语,并将它们与具体的基因功能联系起来,构建一个连贯的生物学故事。

LLM的优势在于其强大的自然语言生成和推理能力,它擅长讲述 为什么 。然而,如前所述,它讲的故事可能很动听,但未必是真的。

GeneAgent巧妙地将两者的优势融为一体。在它的自我验证环节,它实质上是在后台运行着类似GSEA的分析(通过调用g:Profiler等工具),用这些统计上可靠的结果来审视和修正LLM生成的叙述。因此,GeneAgent可以被看作一个融合了GSEA统计严谨性和LLM叙事能力的 混合系统 。它既能像GSEA一样给出基于证据的富集术语,又能像一个知识渊博的生物学家一样,将这些术语编织成一个逻辑清晰、解释详尽的生物学故事,解释基因在其中扮演的角色。研究表明,在与GSEA直接比较时,GeneAgent在相似度和ROUGE分数上都超越了GSEA产生的最显著的富集术语,这说明它生成的名称综合考量了更多信息,更具代表性。

局限与未来的方向

尽管GeneAgent取得了突破性的进展,但研究人员也清醒地指出了它的局限性。首先,它的核心引擎仍然是GPT-4,这意味着它继承了GPT-4的固有能力上限。虽然自我验证可以大大减少幻觉,但并不能百分之百地杜绝。尤其是在某些情况下,如果AI最初的假设错得离谱,或者相关的权威数据库本身信息不全,GeneAgent也可能做出错误的判断。论文的附录中就展示了一些失败的案例,例如,由于数据库规模的限制,一个本该正确的名称被错误地 驳斥 ,或者由于调用了不匹配的数据库,一个本不相似的名称被错误地 认可 。

此外,虽然ROUGE和语义相似度是常用的评估指标,但它们也无法完全捕捉生物学功能描述的全部细微差别。一个好的生物学过程名称,不仅要准确,还要具有启发性,能够激发新的研究思路,而这一点是目前的自动化评估指标难以衡量的。

这些局限性也为未来的工作指明了方向。例如,可以探索集成更多、更专业的数据库,设计更巧妙的 修正 阶段的提示词 (prompt),甚至尝试使用除GPT-4之外的其他LLM作为后端模型。

迈向可信赖的AI科研伙伴

GeneAgent的诞生,是AI在科研领域发展的一个重要里程碑。它告诉我们,通往真正智能的科研AI之路,或许不在于无休止地扩大模型的规模和知识库,而在于教会AI如何像人类科学家一样工作:保持开放的好奇心,更要保持严谨的怀疑精神;勇于提出假设,更要勤于寻找证据。

一个会主动查文献、会自我反思、会承认 我不知道 的AI,远比一个看似无所不知、实则真假难辨的 AI先知 更有价值。GeneAgent所代表的这种 语言智能体 (language agent) 范式,通过连接LLM的推理核心与外部可信的专业工具和数据库,为我们展示了一条构建可信赖、可解释、可追溯的AI科学伙伴的可行路径。

在不远的未来,我们或许可以看到,研究人员的工作流程将发生深刻的改变。在得到一份基因列表后,他们不再是独自埋首于数据库和文献的海洋中,而是将其交给像GeneAgent这样的AI伙伴。AI将快速完成初步的分析、验证和报告生成,为研究人员提供一个高质量的、有证据支持的假设起点。这将极大地解放研究人员的生产力,让他们能将更多精力投入到更具创造性的实验设计和科学发现中去。

从这个意义上说,GeneAgent不仅是一个工具的革新,更是一场科研思维方式的革命的序曲。它让我们得以一窥人与AI协同探索生命奥秘的美好未来。。

版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

医药网新闻
返回顶部】【打印】【关闭
扫描100医药网微信二维码
视频新闻
图片新闻
医药网免责声明:
  • 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
  • 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040