LLaVA-o1：清华&北大等联合推出的一种新型视觉语言模型

0 90

LLaVA-o1简介

LLaVA-o1是由北京大学电子与计算机工程学院、清华大学跨学科信息科学研究所、鹏城实验室以及AI for Science (AI4S)-Preferred Program联合开发的一种新型视觉语言模型。该模型通过自主的多阶段推理，能够在复杂的视觉问题回答任务中进行系统和结构化的推理，显著提高了推理密集型任务的精度。LLaVA-o1独立地进行总结、视觉解释、逻辑推理和结论生成，其结构化方法和推理时的阶段性束搜索策略使其在多模态推理基准测试中超越了基础模型和其他更大的模型。

LLaVA-o1主要功能

多阶段推理：LLaVA-o1能够进行自主的多阶段推理，包括总结、视觉解释、逻辑推理和结论生成。
结构化思考：通过明确的阶段划分，模型能够清晰地识别当前所处的推理阶段，并针对每个阶段的主要任务进行处理。
数据集构建：研究团队创建了LLaVA-o1-100k数据集，整合了多种视觉问题回答源的样本，并提供了结构化推理注释。
推理时扩展：提出了推理时的阶段性束搜索方法，有效实现推理时的扩展，提高模型在复杂任务中的性能和可靠性。

LLaVA-o1技术原理

链式思考提示（Chain-of-Thought Prompting）：与传统的直接预测方法不同，LLaVA-o1采用链式思考提示，鼓励模型逐步推理。
阶段性推理结构：LLaVA-o1将推理过程分解为四个结构化的阶段，每个阶段都有特定的功能和目的。
- 总结阶段（Summary）：模型概述即将处理的任务。
- 图像描述阶段（Caption）：如果存在图像，模型描述与问题相关的图像部分。
- 推理阶段（Reasoning）：模型基于总结进行逻辑推理，得出初步答案。
- 结论阶段（Conclusion）：模型根据前面的推理合成最终答案。
特殊标签：为了增强对推理过程的理解，LLaVA-o1在每个阶段使用专门的标签（如<SUMMARY>...</SUMMARY>），以标记每个阶段的开始和结束。
监督式微调（Supervised Fine-Tuning）：使用LLaVA-o1-100k数据集对现有模型进行全参数微调，以增强其推理能力。
阶段性束搜索（Stage-level Beam Search）：在推理时，LLaVA-o1采用阶段性束搜索方法，生成多个候选结果，并在每个阶段选择最佳结果以继续生成过程。
性能提升：通过结构化推理和推理时扩展，LLaVA-o1在多模态推理基准测试中显示出比传统方法更好的性能，尤其是在需要系统分析的复杂推理任务上。