Aether：通过几何感知推理推动世界模型的发展

0 10

Aether项目简介

AETHER是由上海人工智能实验室开发的一个创新性统一框架，旨在通过几何感知推理推动世界模型的发展。该框架通过联合优化4D动态重建、动作条件下的视频预测以及目标条件下的视觉规划三种核心能力，实现了从合成数据到真实世界数据的零样本泛化。AETHER利用相机轨迹作为动作表示，通过任务交错的特征学习实现了跨任务的知识共享。在实验中，AETHER在4D重建、视频预测和视觉规划等多个任务上均展现出与现有方法相当或更优的性能，证明了其在空间智能领域的巨大潜力。开发团队通过这一成果，为AI系统在物理合理的世界建模及其应用方面开辟了新的前沿。

Aether主要功能

4D动态重建：
- 从视频序列中估计深度和相机姿态，重建出包含时间和空间信息的四维动态场景。
- 支持对动态场景的精确建模，适用于从室内到室外的各种复杂场景。
动作条件下的视频预测：
- 根据初始观测图像和相机轨迹动作，预测未来视频帧。
- 支持动态场景的生成，能够根据动作条件生成高度动态的视频内容。
目标条件下的视觉规划：
- 基于观测图像和目标图像，规划出实现目标的最优动作序列。
- 支持从观测到目标的路径规划，适用于导航和机器人操作等任务。

Aether技术原理

多任务学习框架：
- AETHER通过联合优化4D重建、视频预测和视觉规划三个核心任务，实现跨任务的知识共享。
- 采用任务交错的特征学习策略，随机组合输入和输出模态，使模型能够适应多种任务需求。
合成数据驱动的训练：
- 完全基于合成数据进行训练，通过自动标注流程生成高质量的4D合成数据。
- 提出了一种鲁棒的自动相机标注管道，能够处理从室内到室外、从静态到动态的各种场景。
相机轨迹作为动作表示：
- 选择相机姿态轨迹作为全局动作表示，适用于第一人称视角任务，如导航和机器人操作。
- 将相机轨迹编码为尺度不变的射线图序列，与视频扩散模型的时空框架兼容。
视频扩散模型的后训练：
- 基于预训练的CogVideoX-5b-I2V视频扩散模型进行后训练。
- 通过动态整合跨任务和跨模态的条件信号，实现多任务生成建模的联合优化。
多尺度损失函数：
- 在训练的第二阶段，引入多尺度结构相似性（MS-SSIM）损失、尺度和移不变损失（SSI）以及点云损失，确保生成结果在多个模态上的高质量和一致性。
- 通过这些损失函数，AETHER在颜色视频、深度视频和射线图上均实现了精确的对齐和优化。