TACO:提升模型在复杂、多步骤和多模态任务上的表现
TACO简介
TACO是由Salesforce 研究团队开发的一个多模态大型行动模型,旨在提升模型在复杂、多步骤和多模态任务上的表现。该模型在推理过程中能够生成思维和行动的链条(CoTA),通过调用外部工具如OCR、深度估计和计算器等执行中间步骤,并整合思维与行动输出以产生连贯的响应。为训练TACO,团队利用GPT-4o和Python程序生成了超过100万条合成CoTA痕迹,并通过多种数据过滤和混合技术,最终筛选出293K高质量的CoTA示例用于训练。TACO在多个基准测试中超越了现有的基于指令调整数据训练的模型,平均性能提升了3.6%,在涉及OCR、数学推理和空间推理的MMVet任务中,性能提升高达15%。这一成果不仅展示了TACO在复杂多模态推理任务中的卓越能力,也突显了结构化、多步骤指令调整在提升开源多模态模型能力方面的重要性。

TACO主要功能
-
复杂任务处理:TACO能够处理需要多种能力(如细粒度识别、视觉定位和推理)和多步骤解决方案的复杂问题。
-
生成思维和行动链条(CoTA):在推理过程中,TACO生成思维和行动的链条,明确每一步的思考过程和执行的动作。
-
调用外部工具:TACO可以调用外部工具,如OCR(光学字符识别)、深度估计和计算器等,以执行中间步骤。
-
整合输出:TACO整合思维和行动的输出,生成最终的连贯响应。
-
提高性能:通过高质量的CoTA数据训练,TACO在多个基准测试中超越了现有的基于指令调整数据训练的模型,平均性能提升了3.6%,在特定任务中性能提升高达15%。
TACO技术原理
-
合成数据生成:
-
基于模型的生成:利用GPT-4o和现有视觉指令调整数据集中的图像和问答示例,生成CoTA或CoT(无行动的思维链)来回答问题。
-
程序化数据生成:基于图像的密集注释,使用手动编写的模板和Python程序生成问答对和相应的CoTA痕迹。
-
-
数据过滤和混合:
-
数据格式调整:筛选和混合不同格式的数据,包括CoTA、CoT和直接答案(Direct)。
-
数据源筛选:根据数据源的有用性进行筛选,仅保留对模型训练有益的数据集。
-
模型生成与程序生成数据混合:调整模型生成和程序生成数据的比例,以优化训练数据的质量。
-
-
多模态行动模型:
-
定义行动空间:选择和标准化一系列有用的原子工具,如OCR、对象检测、深度估计等,形成多模态行动模型的行动空间。
-
训练和微调:使用高质量的CoTA数据对多模态模型进行微调,从不同的预训练阶段开始,调整视觉编码器、学习率和训练周期数,以获得最佳性能。
-
-
推理和执行:
-
生成CoTA:在推理过程中,模型生成CoTA,明确每一步的思考过程和执行的动作。
-
调用外部工具:根据CoTA中的行动,调用外部工具执行具体的任务,如从图像中提取文本、计算深度等。
-
整合输出:将所有步骤的输出整合起来,生成最终的连贯响应。
-
-
评估和优化:
-
多模态基准测试:在多个基准测试上评估模型性能,涵盖视觉问答、细粒度对象识别、数学推理和多图像理解等多样能力。
-
超参数调整:通过超参数调整,进一步优化模型的性能,如调整学习率、训练周期数等。
-
TACO应用场景
-
视觉问答:用户上传一张图片并提出相关问题,TACO能够理解图片内容并生成详细的答案。例如,用户上传一张风景照片并问“照片中有哪些动物?”TACO可以识别并回答“照片中有两只鸟和一只狗”。
-
文档理解:对于包含文本和图像的文档,TACO可以提取文本信息并结合图像内容进行综合理解。例如,用户上传一份带有图表的报告并问“图表中最高点的值是多少?”TACO可以识别图表并计算出最高点的值。
-
数学问题解答:用户上传包含数学题的图片,TACO可以识别题目并进行计算。例如,用户上传一张写有“2 + 3 * 4”的图片,TACO可以计算并回答“结果是14”。
-
图像内容分析:用户上传一张复杂场景的图片,TACO可以分析图像中的对象及其关系。例如,用户上传一张市场照片并问“照片中有多少种水果?”TACO可以识别并回答“照片中有苹果、香蕉和橙子,共3种水果”。
-
空间推理:用户上传一张包含多个对象的图片,TACO可以进行空间推理。例如,用户上传一张房间照片并问“电视在沙发的左边还是右边?”TACO可以分析图像并回答“电视在沙发的右边”。
-
多图像理解:用户上传多张相关图片,TACO可以综合理解这些图片的内容。例如,用户上传一系列旅游照片并问“哪张照片是在海边拍的?”TACO可以识别并指出具体的照片。
TACO项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...