TACO:提升模型在复杂、多步骤和多模态任务上的表现

TACO简介

TACO是由Salesforce 研究团队开发的一个多模态大型行动模型,旨在提升模型在复杂、多步骤和多模态任务上的表现。该模型在推理过程中能够生成思维和行动的链条(CoTA),通过调用外部工具如OCR、深度估计和计算器等执行中间步骤,并整合思维与行动输出以产生连贯的响应。为训练TACO,团队利用GPT-4o和Python程序生成了超过100万条合成CoTA痕迹,并通过多种数据过滤和混合技术,最终筛选出293K高质量的CoTA示例用于训练。TACO在多个基准测试中超越了现有的基于指令调整数据训练的模型,平均性能提升了3.6%,在涉及OCR、数学推理和空间推理的MMVet任务中,性能提升高达15%。这一成果不仅展示了TACO在复杂多模态推理任务中的卓越能力,也突显了结构化、多步骤指令调整在提升开源多模态模型能力方面的重要性。

TACO:提升模型在复杂、多步骤和多模态任务上的表现

TACO主要功能

  1. 复杂任务处理:TACO能够处理需要多种能力(如细粒度识别、视觉定位和推理)和多步骤解决方案的复杂问题。
  2. 生成思维和行动链条(CoTA):在推理过程中,TACO生成思维和行动的链条,明确每一步的思考过程和执行的动作。
  3. 调用外部工具:TACO可以调用外部工具,如OCR(光学字符识别)、深度估计和计算器等,以执行中间步骤。
  4. 整合输出:TACO整合思维和行动的输出,生成最终的连贯响应。
  5. 提高性能:通过高质量的CoTA数据训练,TACO在多个基准测试中超越了现有的基于指令调整数据训练的模型,平均性能提升了3.6%,在特定任务中性能提升高达15%。

TACO技术原理

  1. 合成数据生成
    • 基于模型的生成:利用GPT-4o和现有视觉指令调整数据集中的图像和问答示例,生成CoTA或CoT(无行动的思维链)来回答问题。
    • 程序化数据生成:基于图像的密集注释,使用手动编写的模板和Python程序生成问答对和相应的CoTA痕迹。
  2. 数据过滤和混合
    • 数据格式调整:筛选和混合不同格式的数据,包括CoTA、CoT和直接答案(Direct)。
    • 数据源筛选:根据数据源的有用性进行筛选,仅保留对模型训练有益的数据集。
    • 模型生成与程序生成数据混合:调整模型生成和程序生成数据的比例,以优化训练数据的质量。
  3. 多模态行动模型
    • 定义行动空间:选择和标准化一系列有用的原子工具,如OCR、对象检测、深度估计等,形成多模态行动模型的行动空间。
    • 训练和微调:使用高质量的CoTA数据对多模态模型进行微调,从不同的预训练阶段开始,调整视觉编码器、学习率和训练周期数,以获得最佳性能。
  4. 推理和执行
    • 生成CoTA:在推理过程中,模型生成CoTA,明确每一步的思考过程和执行的动作。
    • 调用外部工具:根据CoTA中的行动,调用外部工具执行具体的任务,如从图像中提取文本、计算深度等。
    • 整合输出:将所有步骤的输出整合起来,生成最终的连贯响应。
  5. 评估和优化
    • 多模态基准测试:在多个基准测试上评估模型性能,涵盖视觉问答、细粒度对象识别、数学推理和多图像理解等多样能力。
    • 超参数调整:通过超参数调整,进一步优化模型的性能,如调整学习率、训练周期数等。

TACO应用场景

  1. 视觉问答:用户上传一张图片并提出相关问题,TACO能够理解图片内容并生成详细的答案。例如,用户上传一张风景照片并问“照片中有哪些动物?”TACO可以识别并回答“照片中有两只鸟和一只狗”。
  2. 文档理解:对于包含文本和图像的文档,TACO可以提取文本信息并结合图像内容进行综合理解。例如,用户上传一份带有图表的报告并问“图表中最高点的值是多少?”TACO可以识别图表并计算出最高点的值。
  3. 数学问题解答:用户上传包含数学题的图片,TACO可以识别题目并进行计算。例如,用户上传一张写有“2 + 3 * 4”的图片,TACO可以计算并回答“结果是14”。
  4. 图像内容分析:用户上传一张复杂场景的图片,TACO可以分析图像中的对象及其关系。例如,用户上传一张市场照片并问“照片中有多少种水果?”TACO可以识别并回答“照片中有苹果、香蕉和橙子,共3种水果”。
  5. 空间推理:用户上传一张包含多个对象的图片,TACO可以进行空间推理。例如,用户上传一张房间照片并问“电视在沙发的左边还是右边?”TACO可以分析图像并回答“电视在沙发的右边”。
  6. 多图像理解:用户上传多张相关图片,TACO可以综合理解这些图片的内容。例如,用户上传一系列旅游照片并问“哪张照片是在海边拍的?”TACO可以识别并指出具体的照片。

TACO项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...