Evo 2:斯坦福大学等推出的一款生物基础模型

Evo 2简介

Evo 2是由Arc Institute和斯坦福大学联合开发团队推出的一款生物基础模型,专为跨所有生命领域的基因组建模与设计而开发。该模型基于9.3万亿个DNA碱基对的高质量基因组数据集进行训练,具备单核苷酸分辨率和高达100万个标记的上下文窗口处理能力。Evo 2不仅能够准确预测基因变异对蛋白质功能、RNA功能和生物体适合度的影响,还能生成具有自然性和连贯性的基因组序列,并通过表观遗传学设计实现复杂的生物功能调控。开发团队通过开源模型参数、训练代码和推理代码,以及提供OpenGenome2数据集,推动了生物复杂性探索和设计的开放性研究。

Evo 2:斯坦福大学等推出的一款生物基础模型

Evo 2主要功能

  1. 基因变异影响预测:Evo 2能够预测基因变异对蛋白质功能、RNA功能和生物体适合度的影响。它通过学习DNA序列的统计特性,无需特定任务的微调即可实现零样本预测,尤其在非编码变异的预测上表现出色。
  2. 基因组序列生成:Evo 2可以生成线粒体、原核生物和真核生物的基因组序列,生成的序列在结构和功能上与自然序列高度相似,展现出自然性和连贯性。
  3. 表观遗传学设计:Evo 2结合表观遗传学预测模型(如Enformer和Borzoi),能够设计具有特定染色质可及性模式的DNA序列,为合成生物学和基因组设计提供了新的可能性。
  4. 生物特征解释:Evo 2通过稀疏自编码器(SAE)技术,揭示了模型内部学习到的生物特征,包括外显子、内含子、转录因子结合位点、蛋白质结构元素等,为基因组注释和功能发现提供了新的工具。

Evo 2技术原理

  1. 深度学习架构:Evo 2采用了StripedHyena 2架构,这是一种新型的卷积混合架构,结合了输入依赖卷积和注意力机制,能够在大规模数据上高效训练,同时保持对长序列的处理能力。
  2. 大规模数据训练:Evo 2在OpenGenome2数据集上进行训练,该数据集包含超过8.8万亿个核苷酸序列,覆盖了细菌、古菌、真核生物和噬菌体。通过大规模数据训练,模型能够捕捉基因组的复杂性。
  3. 上下文扩展技术:Evo 2的训练分为预训练和中训练两个阶段。预训练阶段使用较短的上下文长度(8192个标记)学习基因功能元素;中训练阶段则扩展上下文长度至100万个标记,以学习长距离基因组关系。
  4. 稀疏自编码器(SAE):Evo 2通过稀疏自编码器技术对模型的内部表示进行分解,揭示了与生物功能相关的特征。这种方法使得模型的内部学习过程更加透明,便于解释和应用。
  5. 表观遗传学引导生成:Evo 2通过结合表观遗传学预测模型,利用其生成能力设计具有特定功能的DNA序列。这种方法通过推理时搜索实现,能够高效地探索复杂的生物设计空间。

Evo 2应用场景

  1. 疾病相关变异预测:Evo 2可用于预测基因变异对疾病的影响,帮助识别致病突变,为临床诊断和个性化医疗提供支持。
  2. 基因组编辑设计:通过生成具有特定功能的基因组序列,Evo 2可辅助设计用于基因治疗或合成生物学的DNA序列。
  3. 非编码区域功能研究:Evo 2能够预测非编码DNA的功能影响,助力探索基因调控元件和表观遗传学机制。
  4. 合成生物学:Evo 2可生成具有特定表观遗传特征的DNA序列,为合成生物系统的设计提供基础,推动合成生物学的发展。
  5. 进化生物学研究:Evo 2通过分析基因组序列的进化模式,帮助研究物种间的进化关系和基因功能的保守性。
  6. 药物靶点发现:Evo 2能够预测基因变异对蛋白质功能的影响,为药物靶点的发现和验证提供数据支持,加速新药研发进程。

Evo 2项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...