Nature子刊:清华大学汪小我团队开发AI辅助的启动子序列优化方法——DeepSEED |
![]() |
来源:生物世界 2023-10-20 13:42
该研究基于知识引导与数据驱动相融合的创新策略,建立了人工智能辅助的启动子序列优化方法——DeepSEED,能够有效突破功能启动子设计中维度高、样本小的核心难题近日,清华大学自动化系汪小我团队在ure Communications期刊发表了题为:Deep flanking sequence engineering for efficient promoter design using DeepSEED的研究论文。
该研究提出了一种将专家知识与大数据学习相融合的合成启动子人工智能辅助设计方法 DeepSEED,发现了转录因子结合位点旁侧序列在启动子优化设计中的重要作用,为突破基因调控元件设计中面临的高维度、小样本的核心难题提供了新的思路。
该研究围绕着启动子(Promoter)这一负责决定基因在何时、何地以何种程度进行转录表达的合成生生物学基础元件展开研究。DNA序列设计的空间巨大,1000bp长度的序列理论上有10^600种可能的排列组合方式。传统的启动子解析与设计研究主要侧重于对功能已知的转录因子结合位点(Transcription Factor Binding Sites,TFBS)进行分析,并通过位置权重矩阵(PWM)等模型对序列motif进行描述和建模。然而对在启动子序列中占据很大比例的位于不同TFBS之间的旁侧序列(Flanking sequence)却缺少研究。
虽然有实验表明,旁侧序列的改变也会对启动子活性产生影响,但由于旁侧序列中的特征信号弱,难以被人为归纳总结为明确的知识和设计准则,导致旁侧序列在启动子功能研究中被长期忽视。此外,由于天然基因组具有特殊功能的启动子往往样本数量很少,导致对响应特定生物信号的诱导型与细胞特异型等更具实际应用价值的启动子难以直接建立深度学习模型对整体模式进行提取。
针对上述问题,研究团队创新提出了一种知识引导与数据驱动相融合的智能设计策略 DeepSEED(图1):首先基于人类专家擅长在小样本中识别明确强特征模式的特点,利用专家知识定义与启动子功能相关的重要显式模式例如TFBS或专家任意设定的序列片段作为 种子 ;在此基础上,借助深度学习模型在大型数据集中提取隐含弱模式的强大能力,在海量数据中学习旁侧序列与种子序列间隐式匹配关系,进而基于条件生成式模型产生与 种子 相匹配的完整启动序列,并对序列整体进行全局优化。
DeepSEED方法由两个深度学习模块组成,一个条件式生成对抗网络(cGAN)用于捕获显式和隐式模式之间的依赖关系,一个基于DenseNet-LSTM的预测模型来评估启动子性能,并利用遗传算法对这两个模型进行偶联,通过模型迭代实现功能启动子的优化设计。在实际应用过程中,研究者可以任意指定已知生物调控序列作为 种子 ,模型通过学习大数据中旁侧序列的调控规律对 种子 的旁侧序列进行补全,提升启动子的整体转录活性。从而实现启动子的按需优化设计。
图1. DeepSEED模型框架
研究团队成功将该方法应用于大肠杆菌内组成型启动子、IPTG诱导型启动子,和哺乳动物细胞内Dox诱导型启动子的优化设计(图2)。尤为值得一提的是,研究团队选择在生命科学研究中广泛使用的、近三十年来未能被进一步优化的哺乳动物细胞Dox诱导型Tet-On调控系统作为研究对象,实验表明77.8%的人工启动子表现出诱导活性提高,83.3%的人工启动子表现出更高的诱导倍数(图3)。
生成的合成启动子表现出了高度的序列多样性、与天然基因组序列的低相似性,同时保留了天然序列中k-mer频率等特征,并优化了DNA大沟、小沟偏好、偏转角等整体形状属性,大幅提升了合成启动子的转录活性和诱导率等关键性能,并在多种不同培养条件和细胞类型中表现鲁棒。
图2. 在多种启动子设计任务中成功应用
图3. 哺乳动物细胞内Dox诱导型启动子的设计结果
综上所述,该研究基于知识引导与数据驱动相融合的创新策略,建立了人工智能辅助的启动子序列优化方法 DeepSEED,能够有效突破功能启动子设计中维度高、样本小的核心难题,为研究者提供了可用于旁侧序列优化和多类型启动子设计的人工智能辅助工具,有望为合成生物学研究提供基础性的设计工具和多样化的调控元件。
清华大学自动化系博士研究生张鹏程、博士研究生王昊晨与硕士研究生许涵文为该论文的共同第一作者,清华大学汪小我教授为通讯作者。清华大学的魏磊、刘莉扬、胡志睿等也对本文做出了重要贡献。该研究得到了国家、国家重点研发计划、清华大学国强研究院项目的资助。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

- 相关报道
-
- Nature:海马体中的多巴胺信号或能作为机体情绪决策的“导航仪” (2025-05-14)
- Nature Genetics:告别“批量”模糊——首个大规模单细胞研究,解码胶质母细胞瘤纵向演变的“个体差异”与“普遍规律” (2025-05-14)
- Nat Immunol:科学家绘制出机体免疫细胞“地图”,有望解锁抵抗疾病的密码 (2025-05-14)
- 司美格鲁肽被无情碾压!替尔泊肽在头对头比较中,显示出更好的减重和减腰围效果 (2025-05-14)
- 晚婚晚育或是因为智商高?!最新研究表明:高智商个体虽更早进入青春期,但更倾向于晚婚晚育 (2025-05-14)
- 博腾生物与华隆生物达成战略合作,加速MATC细胞药物开发,突破实体瘤治疗瓶颈 (2025-05-13)
- 新一代BCL2抑制剂索托克拉新适应症MCL上市申请获受理,百济神州血液肿瘤管线新突破 (2025-05-13)
- 2025未来医疗100强榜单发布:立足当下,突破创新临界点 (2025-05-13)
- 《神经元》:剑桥大学团队发现,ACLY抑制剂或能治疗帕金森病! (2025-05-12)
- 《科学》新研究:一次用药,抗抑郁效果从几天延长至2个月! (2025-05-12)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040