艾伦人工智能研究所(Allen Institute for AI,简称Ai2)发布了一个名为Molmo的新型开源多模态语言模型系列,这些模型能够处理文本和图像。Molmo系列包含四种神经网络模型,参数数量从1亿到72亿不等。这些模型不仅能够回答自然语言提示,还能进行多模态处理,例如识别图像中的对象、计数和描述。
在内部评估中,Molmo的72亿参数版本在11项基准测试中得分81.2,略胜于OpenAI的GPT-4o。而两个7亿参数的版本与OpenAI模型的差距不到5分。最小的1亿参数模型虽然处理能力有限,但据称其性能仍可超过一些参数数量多10倍的算法,并且足够紧凑,能在移动设备上运行。
Molmo的训练数据集包含数十万张图像,每张图像都有详细的描述。Ai2表示,正是这些高质量的数据使得Molmo在对象识别任务上比训练在低质量数据上的更大模型更为熟练。
Molmo系列的发布与Meta的Llama 3.2语言模型系列发布时间相近,Llama 3.2也包含四个开源神经网络,其中前两个模型分别有9亿和11亿参数,基于多模态架构,能够处理文本和图像。Meta表示这些模型在图像识别任务上的准确度与GPT4o-mini相当。另外两个模型专注于文本处理任务,参数数量分别为3亿和约1亿,Meta声称这些模型在多种任务上的表现优于同等规模的算法。
来源:siliconangle
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...