Maya：能够处理和理解八种不同语言的图像和文本数据

3-5.多模态模型3个月前更新 AI-77

0 90

Maya简介

Maya是一个开源的多语言多模态视觉语言模型，旨在提升机器对低资源语言和多样文化背景的理解能力。它基于LLaVA框架，提供了一个包含八种语言的558,000图像的多语言预训练数据集，并去除了其中的有毒内容。Maya利用Aya-23 8B多语言模型和SigLIP视觉编码器，支持跨语言的图像和文本理解任务，增强了对不同文化和语言细微差别的理解。通过预训练和指令微调，Maya在多语言评估中展现出与大型模型相媲美的性能，同时提供了一个无毒的变体，以确保安全部署。

Maya：能够处理和理解八种不同语言的图像和文本数据

Maya主要功能

多语言支持：Maya能够处理和理解八种不同语言的图像和文本数据，包括中文、法文、西班牙文、俄文、印地文、日文和阿拉伯文。
多模态理解：模型能够同时处理视觉信息（图像）和语言信息（文本），在视觉问答（VQA）和图像描述生成等任务中发挥作用。
预训练数据集：提供了一个多语言的预训练数据集，包含558,000张图片，用于训练和优化模型。
去除毒性内容：对预训练数据集进行了毒性分析和过滤，创建了一个无毒性内容的版本，以减少模型学习到的偏见和有害信息。
性能评估：在多语言评估集上进行测试，以确保模型在不同语言和文化背景下的性能。
模型微调：在PALO 150K指令微调数据集上进行微调，以提高模型在特定任务上的表现。

Maya技术原理

多语言模型架构：基于LLaVA 1.5框架，使用Aya-23 8B模型作为多语言语言模型（LLM），支持23种语言。
视觉编码器：选择SigLIP作为视觉编码器，因其在多语言适应性和性能上的优势，以及对不同尺寸输入的灵活性。
图像-文本对齐：使用投影矩阵W将图像特征转换为语言特征，以实现图像和文本之间的对齐。
预训练：在多语言数据集上进行预训练，以学习图像和文本之间的基本对应关系。
指令微调：在特定指令数据集上进行微调，以提高模型对自然语言指令的响应能力。
毒性内容过滤：使用LLaVAGuard和Toxic-BERT等工具对数据集中的图像和文本进行毒性分析，然后从训练数据中移除有毒内容。
跨模态性能优化：通过预训练和微调，优化模型在跨语言和跨模态任务中的表现，如图像描述和视觉问答。

Maya应用场景

图像识别与描述：Maya可以识别图像内容并用自然语言描述，适用于图像标注和自动化图像描述生成。
视觉问答系统：在视觉问答(VQA)场景中，Maya能够理解图像内容并回答与图像相关的自然语言问题。
跨语言内容分析：Maya能够处理和分析不同语言的视觉内容，适用于多语言社交媒体分析和国际市场研究。
辅助语言学习：利用多语言能力，Maya可以辅助语言学习者理解图像中的语境，增强语言教学的互动性和趣味性。
多语言客户服务：在客户服务领域，Maya可以通过理解和回应多语言用户的查询，提供更高效的客户支持。
安全内容审核：Maya的毒性内容过滤功能使其能够用于内容审核，自动检测和过滤网络上的有害信息，保护用户免受不良内容的影响。

Maya项目入口

GitHub代码库：https://github.com/nahidalam/maya
HuggingFace模型：https://huggingface.co/maya-multimodal/maya
arXiv技术论文：https://arxiv.org/pdf/2412.07112

# 3-5.多模态模型 # 3.AI大模型数据库 # AI开源项目 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Inf-DiT：清华联合智谱 AI推出的高分辨率图像上采样模型

AI-77cn

60

Video-RAG：助力视频语言模型更好地理解和处理长视频内容

AI-77cn

100

WhisperChain：能够将用户说话的内容即时转换为文字

AI-77cn

60

Whisper-Medusa：aiOla开源的AI语音识别模型

AI-77cn

50

TIGER：清华大学等推出的新型轻量级语音分离模型

AI-77cn

90

GenCast：谷歌DeepMind团队推出的中长期天气预报模型

AI-77cn

90

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号