xGen-MM：Salesforce推出的一款开源多模态AI模型

1-2.大模型&国外3个月前更新 AI-77

0 10

xGen-MM简介

xGen-MM（原BLIP-3）是由Salesforce推出的一款开源的大型多模态模型（LMMs）。这些模型基于精心策划的数据集，采用统一的训练方法和优化的模型架构设计，以提高在多种视觉语言任务中的性能。xGen-MM通过简化训练过程，强化上下文学习能力，并针对安全性进行了特别调整，以减少潜在的有害行为。此外，该团队还开源了模型、数据集和微调代码，以促进社区在多模态AI研究方面的进一步发展。

xGen-MM：Salesforce推出的一款开源多模态AI模型

xGen-MM主要功能

多模态学习能力：模型能够处理和理解结合了视觉和语言的信息，执行如图像描述、视觉问答等任务。
上下文理解：模型展现出在上下文中学习的能力，能够根据给定的情境信息生成或理解文本。
指令调整性能：通过指令调整（instruction-tuning），模型能够更好地理解和响应用户的查询。
安全性优化：模型经过特别调整，以减少幻觉和其他有害行为，提高模型的安全性和可靠性。

xGen-MM技术原理

大规模数据集：使用大规模、高质量、多样化的数据集进行训练，确保模型学习到丰富的视觉语言表示。
统一训练目标：简化训练过程，通过将训练目标统一为单一的损失函数来提高效率和性能。
可扩展的视觉令牌采样器：采用感知器重采样器（perceiver resampler）代替Q-Former层，提高模型处理不同分辨率图像的能力。
预训练和微调：模型首先在大量数据上进行预训练，然后在特定任务上进行微调，以优化性能。
直接偏好优化（DPO）：使用DPO技术改善模型的有用性和视觉忠实度，减少有害输出。
安全性微调：在VLGuard等数据集上进行安全性微调，以降低模型产生不当内容的风险。
多图像输入能力：支持输入多图像和文本的交织格式，提高模型对复杂数据结构的处理能力。

xGen-MM应用场景

图像描述生成：自动为图片生成描述性文字，适用于社交媒体、图片分享平台或视觉障碍人士的辅助工具。
视觉问答系统：回答有关图像内容的问题，应用于在线客服、教育和娱乐等领域。
文档理解和信息检索：在大量文档中搜索特定信息，适用于企业知识管理和法律文档分析。
多模态对话系统：与用户进行包含图像和文本的互动对话，用于客户服务或虚拟助手。
内容审核与过滤：自动检测和过滤不安全或不适当的图像和文本内容，用于社交媒体和在线社区。
辅助设计和创意：根据用户的文字描述生成图像或设计草图，应用于艺术创作和时尚设计领域。

xGen-MM项目入口

GitHub代码库：https://github.com/salesforce/LAVIS/tree/xgen-mm
arXiv技术论文：https://arxiv.org/pdf/2408.08872
Hugging Face模型：https://huggingface.co/Salesforce/xgen-mm-phi3-mini-instruct-interleave-r-v1.5

# 1-2.大模型&国外 # 1.大模型相关 # 3-1.大语言模型 # 3.AI大模型数据库 # AI开源项目 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Gemini Robotics：实现机器人对复杂环境的通用感知与交互

AI-77cn

50

ConceptMaster：快手联合清华等高校推出的多概念视频定制框架

AI-77cn

40

Follow-Your-Click：可生成局部动画的图像到视频模型

AI-77cn

90

RAG-Diffusion：南京大学推出的区域感知文本到图像生成技术

AI-77cn

50

EMMA-X：新加坡科技设计大学推出的多模态动作模型

AI-77cn

20

MotionCanvas：在设计电影镜头时灵活地操控相机和物体的运动

AI-77cn

40

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号