TxGemma：谷歌推出的专为治疗性药物开发设计的通用模型

0 40

TxGemma简介

TxGemma是由谷歌开发的高效通用大型语言模型（LLM）套件，专为治疗性药物开发设计。该模型套件包含2B、9B和27B参数的模型，基于Gemma-2微调而成，整合了小分子、蛋白质、核酸、疾病和细胞系等多样化数据源，能够进行治疗性属性预测、交互式推理和可解释性分析。TxGemma在66个治疗性开发任务中表现出色，超越或接近多个现有通用和专业模型。其对话式模型TxGemma-Chat能够与科学家进行自然语言交互，提供预测解释，促进科学讨论。此外，Agentic-Tx系统通过整合TxGemma模型和其他工具，能够解决复杂的多步骤问题，展现了强大的推理和任务管理能力。TxGemma的开放模型发布，为研究人员提供了在多样化数据集上进行适应和验证的灵活性，推动了更具挑战性的现实世界应用的发展。

TxGemma主要功能

治疗性属性预测：
- 能够预测药物的各种治疗相关属性，如毒性、药代动力学特性、药物靶点相互作用等。
- 在66个治疗性开发任务中，TxGemma在64个任务上达到或接近现有最佳通用模型的性能，在50个任务上优于现有专业模型。
交互式推理和可解释性：
- 提供对话式模型TxGemma-Chat，能够与科学家进行自然语言交互，解释预测结果，并基于分子结构提供推理。
- 使科学家能够更好地理解模型的决策过程，促进科学讨论。
复杂工作流程管理：
- Agentic-Tx系统能够整合TxGemma模型和其他工具，解决复杂的多步骤问题。
- 在推理密集型化学和生物学基准测试中表现出色，如Humanity’s Last Exam和ChemBench。
数据效率：在临床试验不良事件预测等下游任务上，TxGemma模型需要的训练数据比基础LLM少，适合数据有限的应用场景。
开放模型发布：提供开放模型，使研究人员能够在自己的数据集上进行适应和验证，促进更具挑战性的现实世界应用。

TxGemma技术原理

基于Gemma-2的微调：
- TxGemma基于Gemma-2家族的轻量级、最先进的开放LLM构建，利用解码器仅转换器架构。
- 通过在Therapeutics Data Commons（TDC）的多样化数据集上进行微调，模型能够整合小分子、蛋白质、核酸、疾病和细胞系等多源数据。
指令调整数据：
- 将TDC数据转换为指令调整格式，每个数据点包含指令、背景、问题和答案。
- 使用70%零样本和30%少样本提示策略，促进上下文学习。
对话式模型训练：
- 通过补充治疗性指令调整数据与通用指令调整数据，训练对话式模型TxGemma-Chat。
- 使模型在保留对话和推理能力的同时，能够进行治疗性属性预测。
Agentic系统：
- Agentic-Tx系统基于Gemini 2.0，采用ReAct框架，能够通过工具使用进行推理和行动。
- 系统配备了18个工具，涵盖分子描述、毒性预测、临床试验结果预测等，能够动态调整工具使用以适应不同任务需求。
数据效率优化：
- 在临床试验不良事件预测任务中，通过微调TxGemma模型，能够用更少的训练数据达到与现有模型相当的性能。
- 适用于数据有限的治疗性领域，提高了模型的实用性和适应性。