Molmo：艾伦人工智能研究所推出的新型多模态语言模型

0 100

Molmo简介

Molmo是由艾伦人工智能研究所开发的一系列新型多模态语言模型（VLMs）。这些模型通过结合独立的预训练视觉编码器和语言模型，并利用全新收集的高质量图像描述数据集进行训练，实现了卓越的性能。Molmo的关键创新在于其数据收集策略，该策略通过要求注释者进行语音描述而非书面描述来生成详细的图像字幕，从而避免了依赖专有VLMs生成的合成数据。开发团队计划公开模型权重、训练数据和源代码，以促进科学研究和社区发展。

Molmo主要功能

图像描述生成：Molmo能够生成关于图像的详细描述，这些描述是由人类注释者通过语音描述后转录得到的。
视觉问答（VQA）：模型能够准确回答有关图像内容的复杂问题。
指令遵循：通过监督式微调，Molmo能够遵循给定的指令来执行任务。
多模态交互：结合图像和文本数据，Molmo支持更丰富的用户交互方式。
2D指向数据：Molmo能够理解和生成指向图像中特定部分的指令，提高了模型对图像内容的解释能力。

Molmo技术原理

视觉编码器：利用先进的视觉模型（如CLIP的ViT）将图像转换为视觉令牌。
连接器：通过一个小型神经网络将视觉令牌转换成语言模型能够处理的格式。
Transformer语言模型：采用仅解码器的Transformer结构来生成描述和回答。
数据收集：通过让人类注释者对图像进行口头描述来创建详细的图像字幕数据集。
训练流程：
- 首先，将视觉编码器和语言模型结合，通过新收集的PixMo-Cap数据集进行训练。
- 然后，使用包括学术数据集和新收集的PixMo-⋆系列数据集的混合数据进行微调。
数据集：包括野外问答数据、2D指向数据、文档图像问答数据等，以增强模型的多样性和实用性。