Apollo：Meta和斯坦福大学联合推出的大型多模态模型

0 30

Apollo简介

Apollo是Meta GenAI与斯坦福大学合作开发的一系列先进的大型多模态模型（LMMs），旨在深入探索和提升视频理解能力。该模型家族通过系统性研究，优化了视频采样、编码、令牌重采样等关键技术，实现了对长达一小时视频的高效感知，并在多个视频理解基准测试中取得了突破性成绩，超越了参数规模更大的模型。Apollo项目不仅推动了视频-LMMs的研究进展，还为未来视频理解技术的发展提供了宝贵的指导和资源。

Apollo主要功能

视频理解： Apollo能够理解和分析视频内容，捕捉视频中的时空特征。
多模态融合： 模型整合了视觉和语言信息，处理和解释图像与文本的多模态数据。
高效视频处理： 能够高效感知长达一小时的视频内容，展现了出色的视频处理能力。
性能优越： 在多个视频理解基准测试中，Apollo表现出超越更大模型的性能。
可扩展性： 作为一个模型家族，Apollo包含了不同规模的模型，以适应不同的应用和研究需求。

Apollo技术原理

视频采样策略（Video Sampling）：采用每秒帧数（fps）采样方法，相比于均匀采样，能够更好地捕捉视频的动态信息。
视觉编码器选择（Vision Encoders）：结合使用SigLIP-SO400M和InternVideo2等视觉编码器，以获得更优的视频表示。
视频令牌重采样（Video Token Resampling）：利用Perceiver Resampler等技术，有效减少令牌数量，同时保持视频信息的完整性。
视频令牌集成（Video Token Integration）：通过在视频令牌之间插入文本或可学习的标记，提高模型对视频数据的处理能力。
训练策略（Training Schedules）：实施多阶段训练，逐步“解冻”模型的不同部分，以优化训练动态。
数据组成（Data Composition）：训练数据包含适量的文本数据和视频数据，以维持模型性能。
Scaling Consistency（规模一致性）：发现在较小模型上有效的设计决策可以有效地转移到更大的模型上，减少了计算成本并加速了研究进程。
ApolloBench基准测试：策划了一个高效的基准测试套件，用于评估视频-LMMs的性能，同时减少了评估时间并提高了评估质量。