Nature子刊:韩敬东团队提出基于Transformer的单细胞可解释注释方法 |
来源:生物世界 2023-02-02 11:13
随后研究团队在泛癌浸润T细胞数据集,泛癌浸润髓系细胞数据集,COVID19疾病数据集,红斑狼疮(SLE)数据集中验证了TOSICA在解决实际科学问题中的优势和潜力。近年来得益于单细胞测序技术的发展,我们可以以单细胞分辨率去理解生物学过程,包括发育,衰老和疾病等。细胞类型注释在单细胞数据分析过程中非常关键,传统的注释方法是将细胞降维到去除批次效应的低维空间,再进行一轮或多轮不同分辨率的聚类,最后根据不同细胞簇的标记基因人工的标注细胞类型。这一过程缺乏公认的标准,很大程度上受到研究人员偏好的影响。此外,移除批次效应的同时保留生物学差异也是单细胞研究的难点。幸而,随着技术进步,越来越多大规模单细胞图谱产生并公开发表,为后续研究提供了重要参考,但同时也产生了开发能够高效处理大规模数据的计算工具的需求。所以,统一标准的,高效的,生物学可解释的细胞类型标注工具对于单细胞分析结果的可重复性和科学研究的持续发展至关重要。
近日,北京大学韩敬东课题组在Nature Communications期刊发表题为:Transformer for One Stop Interpretable Cell type Annotation的研究论文。
该研究开创性的提出了基于多头自注意力机制的深度学习方法TOSICA,实现了无需任何批次信息输入,使用个人电脑,在数十分钟内对百万级单细胞数据的细胞类型注释,并建立多层次可解释性的,批次不敏感的,高分辨率的细胞低维表示。
与基于特征基因或相关性的机器学习方法相比,深度学习方法往往更适合处理大数据,更高效,更自动化。目前已经有大量基于自编码器(Autoencoder,AE)及其各种变体的细胞类型注释方法被开发,但受限于AE模型结构本身带来的弊端,此类方法大多伴随着特征提取过程中的信息损失,需要额外批次信息的辅助去除批次效应,以及无法在不牺牲模型深度或能力的情况下赋予隐空间生物学可解释性等问题。
Transformer是一种先进的,基于多头自注意力(Multi-head self-attention)机制的深度学习模型,拥有强大的全局信息集成能力和可解释性,它在自然语言处理(NLP)和计算机视觉(CV)等领域都取得了突破性进展。受这些优良特性的鼓舞,TOSICA 开创性的将Transformer计算单元运用到scRNA-seq数据分析领域。该模型首先将细胞中基因的表达信息转化成基因集特征(Gene set token)并添加一维用于分类的分类头(Class token),由于基因集间的离散特性,相对于传统Transformer模型,TOSICA无需位置信息编码(position embedding)而直接进入多头自注意力层进行特征集成,最后仅将class token接入分类器中得到细胞分类结果。
研究团队在多种不同的数据集中对模型的准确性进行了试验,包括疾病数据集,细胞类型不平衡数据集,发育数据集,复杂批次数据集,小鼠全组织图谱数据集。在横向比较的19种细胞类型注释器中,TOSICA综合准确性排名第一,运行时间随细胞数增加呈线性增加。值得注意的是,在规模大且细胞类型多的小鼠全组织图谱数据集和细胞类型不平衡数据集中,TOSICA的准确性分别领先第二名2%和6%。TOSICA还具有准确识别不同的新细胞类型,高灵敏鉴定过渡状态细胞,重构细胞动态轨迹,以及无需批次信息的批次效应去除等优秀特质。
随后研究团队在泛癌浸润T细胞数据集,泛癌浸润髓系细胞数据集,COVID19疾病数据集,红斑狼疮(SLE)数据集中验证了TOSICA在解决实际科学问题中的优势和潜力。实现了疾病相关可解释动态轨迹重构,鉴定随年龄,疾病状态,癌症类型变化而活化的通路,细分功能的细胞亚群鉴定,以及跨不同疾病模型的细胞类型迁移。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载-> 医药网新闻- 相关报道
-
- 官宣定档!2025(第五届)类器官大会,3月8日与您相约上海! (2024-11-21)
- Int J Cancer:高水平的Ω (2024-11-21)
- Mol Cancer:新研究发现治疗三阴性乳腺癌的新靶点——NAC1蛋白 (2024-11-20)
- Genome Med:大规模遗传学研究有望识别出通过调节血液代谢产物从而降低机体心血管疾病风险的特殊靶点 (2024-11-20)
- Oncogene:丙酸盐代谢产物或与肺癌患者机体免疫细胞功能减退密切相关 (2024-11-19)
- Cancer Cell:邹伟平团队揭示衣康酸转运蛋白SLC13A3赋予肿瘤铁死亡抗性,削弱肿瘤免疫治疗效果 (2024-11-19)
- 《自然·通讯》:东南大学团队发现,PD (2024-11-19)
- Nature Biotechnology:淀粉样蛋白沉积为何如此难治,研究人员找到了哪些突破? (2024-11-19)
- 我们的大脑如何将新旧经历编织在一起?Nature:科学家揭示一种能在大脑中持续不断刷新记忆的新型机制 (2024-11-19)
- 阻断乳酸,能重启抗癌T细胞?Nat Immunol揭秘一场免疫系统的逆袭 (2024-11-18)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040