艾伦人工智能研究所推出全新 Molmo 系列开源多模态模型

0 30

艾伦人工智能研究所（Allen Institute for AI，简称Ai2）发布了一个名为Molmo的新型开源多模态语言模型系列，这些模型能够处理文本和图像。Molmo系列包含四种神经网络模型，参数数量从1亿到72亿不等。这些模型不仅能够回答自然语言提示，还能进行多模态处理，例如识别图像中的对象、计数和描述。

在内部评估中，Molmo的72亿参数版本在11项基准测试中得分81.2，略胜于OpenAI的GPT-4o。而两个7亿参数的版本与OpenAI模型的差距不到5分。最小的1亿参数模型虽然处理能力有限，但据称其性能仍可超过一些参数数量多10倍的算法，并且足够紧凑，能在移动设备上运行。

Molmo的训练数据集包含数十万张图像，每张图像都有详细的描述。Ai2表示，正是这些高质量的数据使得Molmo在对象识别任务上比训练在低质量数据上的更大模型更为熟练。

Molmo系列的发布与Meta的Llama 3.2语言模型系列发布时间相近，Llama 3.2也包含四个开源神经网络，其中前两个模型分别有9亿和11亿参数，基于多模态架构，能够处理文本和图像。Meta表示这些模型在图像识别任务上的准确度与GPT4o-mini相当。另外两个模型专注于文本处理任务，参数数量分别为3亿和约1亿，Meta声称这些模型在多种任务上的表现优于同等规模的算法。

来源：siliconangle

# 柒柒快讯