MM-Eureka:上海交通大学等推出的多模态推理模型
MM-Eureka简介
MM-Eureka是由上海人工智能实验室、上海创新研究院、上海交通大学和香港大学联合开发的多模态推理模型。该模型通过大规模基于规则的强化学习(RL),将单模态强化学习的成功经验扩展到多模态场景中,成功复现了类似DeepSeek-R1的关键特性,包括准确率奖励和响应长度的稳定增长,以及训练过程中的“顿悟时刻”。开发团队通过简单的规则奖励函数和基于难度的数据筛选策略,实现了数据效率的显著提升,并证明了在多模态推理任务中无需监督微调即可获得强大的推理能力。MM-Eureka的完整训练流程已开源,旨在推动多模态推理领域的进一步研究和发展。

MM-Eureka主要功能
-
多模态推理能力:
-
能够处理包含文本和图像的复杂推理任务,例如解读科学图表、解决几何问题以及理解可视化数据等。
-
支持从图像中提取关键信息,并结合文本指令进行逻辑推理和问题求解。
-
-
数据效率优化:
-
在少量数据(如仅使用54K图像-文本数据)的情况下,通过强化学习实现显著的性能提升,相比传统方法(如MPO和SFT)展现出更高的数据效率。
-
-
推理能力增强:
-
通过训练,模型能够展现出类似“顿悟时刻”的行为,例如重新检查图像中的线索、反思错误并进行修正,从而提升推理的准确性和深度。
-
-
适应多种模型和任务:
-
支持从指令调整模型和预训练模型出发进行训练,能够适应不同规模(如8B和38B)的模型。
-
在多种多模态推理基准测试(如MathVista、MathVerse、MathVision等)上表现出色,具备广泛的适用性。
-
MM-Eureka技术原理
-
基于规则的强化学习(RL):
-
使用简单的规则奖励函数,包括准确率奖励(通过比较模型输出的答案与参考答案判断正确性)和格式奖励(检查输出是否符合指定格式)。
-
采用REINFORCE Leave-One-Out(RLOO)算法进行训练,无需批评模型,通过留一法基线减少策略梯度估计的方差。
-
-
数据筛选与难度分级:
-
在训练前对数据进行筛选,排除难以解析或答案不明确的问题,确保训练过程的稳定性。
-
根据数据的难度进行分级,选择适合的训练数据,避免模型在简单问题上过度聚焦,同时保证对复杂问题的探索。
-
-
多模态输入框架:
-
基于OpenRLHF构建多模态输入的强化学习框架,支持多种模型(如InternVL)和不同规模的模型训练。
-
能够处理图像和文本的联合输入,使模型在推理过程中充分利用视觉和语言信息。
-
-
零样本学习与微调:
-
在预训练模型的基础上,通过基于规则的强化学习直接提升推理能力,无需额外的监督微调(SFT)。
-
展现出“零样本学习”的潜力,即使在极少量数据(如8K)的情况下,也能通过强化学习实现显著的性能提升。
-
MM-Eureka应用场景
-
教育领域:辅助学生解决数学和科学问题,通过多模态推理帮助学生理解复杂的图表和几何问题,提供解题思路和步骤。
-
科学研究:帮助研究人员解读科学图表、实验数据可视化结果,快速提取关键信息并进行逻辑推理,加速科研进程。
-
数据分析:用于商业数据分析,解析图表和报告,提供数据背后的逻辑和趋势分析,辅助决策制定。
-
智能辅导:作为智能辅导工具,为学习者提供即时反馈和推理指导,帮助其更好地理解和掌握多模态信息。
-
工程设计:在工程领域,用于解读设计图纸和技术文档,辅助工程师进行方案评估和问题排查。
-
医疗辅助:辅助医疗人员解读医学影像和图表,结合病历信息进行推理,为诊断和治疗提供参考建议。
MM-Eureka项目入口
- Github代码库:https://github.com/ModalMinds/MM-EUREKA
- arXiv技术论文:https://arxiv.org/pdf/2503.07365
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...