Cosmos-Reason1：NVIDIA推出的系列多模态大型语言模型

0 80

Cosmos-Reason1简介

Cosmos-Reason1是由NVIDIA开发的一系列多模态大型语言模型，专注于理解和推理物理世界。该模型通过长链推理过程生成自然语言中的体现决策，例如下一步行动。开发团队定义了物理常识和体现推理的关键能力，并构建了相应的本体论来指导模型训练。Cosmos-Reason1包含两个模型：Cosmos-Reason1-8B和Cosmos-Reason1-56B，它们经过视觉预训练、通用监督微调、物理AI监督微调和强化学习四个阶段的训练，以增强其物理常识和体现推理能力。团队还构建了全面的基准测试来评估模型性能，结果表明，物理AI监督微调和强化学习显著提升了模型的表现。为了推动物理AI的发展，NVIDIA计划将代码和预训练模型开源。

Cosmos-Reason1主要功能

物理世界理解：
- 能够感知和理解物理环境中的空间、时间、物理属性等基本概念。
- 通过视频输入，模型可以识别物体之间的空间关系、事件的顺序以及物理现象（如重力、摩擦力等）。
体现推理与决策：
- 根据物理常识和当前环境状态，生成合理的体现决策，例如预测下一步行动或评估某个动作是否可行。
- 支持不同类型的物理实体（如人类、机器人、自动驾驶车辆等）进行任务规划和执行。
长链推理与自然语言输出：
- 通过长链推理过程，模型能够生成详细的思考过程和自然语言解释，帮助理解其决策依据。
- 输出包括对物理现象的解释、任务执行的建议以及对复杂物理场景的分析。
多模态信息处理：
- 结合视觉输入（视频）和文本提示，模型可以综合处理多模态信息，生成更准确的推理结果。
- 支持从视觉数据中提取关键信息，并将其与语言模型的推理能力相结合。

Cosmos-Reason1技术原理

多模态架构：
- 采用基于解码器的多模态架构，输入视频通过视觉编码器处理后，与文本标记对齐并输入到LLM中。
- 视觉编码器（如InternViT）负责将视频帧转换为视觉标记，投影器将这些标记对齐到文本标记空间，然后输入到LLM骨干网络。
混合Mamba-MLP-Transformer架构：
- 使用混合Mamba-MLP-Transformer架构作为LLM骨干网络，结合了Mamba架构的线性时间和Transformer架构的长序列建模能力。
- Mamba架构通过选择性状态空间模型实现线性时间复杂度，而Transformer层则用于捕捉长距离依赖关系。
分阶段训练：
- 视觉预训练：通过图像和视频标记对齐视觉和文本模态。
- 通用监督微调（SFT）：在通用视觉语言任务上训练模型，提升其多模态理解能力。
- 物理AI监督微调（SFT）：在特定于物理AI的数据上微调模型，增强物理常识和体现推理能力。
- 物理AI强化学习（RL）：通过规则基础的、可验证的奖励机制进一步优化模型的推理能力。
本体论与基准测试：
- 定义了物理常识和体现推理的本体论，涵盖空间、时间、基础物理等类别，以及不同物理实体的推理能力。
- 构建了全面的基准测试，包括物理常识基准、体现推理基准和直观物理基准，用于评估模型的推理性能。
数据集构建：
- 构建了大规模的多模态数据集，涵盖物理常识、体现推理和直观物理任务。
- 数据集通过人工标注和模型生成相结合的方式构建，确保数据的多样性和高质量。