Aether:通过几何感知推理推动世界模型的发展
Aether项目简介
AETHER是由上海人工智能实验室开发的一个创新性统一框架,旨在通过几何感知推理推动世界模型的发展。该框架通过联合优化4D动态重建、动作条件下的视频预测以及目标条件下的视觉规划三种核心能力,实现了从合成数据到真实世界数据的零样本泛化。AETHER利用相机轨迹作为动作表示,通过任务交错的特征学习实现了跨任务的知识共享。在实验中,AETHER在4D重建、视频预测和视觉规划等多个任务上均展现出与现有方法相当或更优的性能,证明了其在空间智能领域的巨大潜力。开发团队通过这一成果,为AI系统在物理合理的世界建模及其应用方面开辟了新的前沿。

Aether主要功能
-
4D动态重建:
-
从视频序列中估计深度和相机姿态,重建出包含时间和空间信息的四维动态场景。
-
支持对动态场景的精确建模,适用于从室内到室外的各种复杂场景。
-
-
动作条件下的视频预测:
-
根据初始观测图像和相机轨迹动作,预测未来视频帧。
-
支持动态场景的生成,能够根据动作条件生成高度动态的视频内容。
-
-
目标条件下的视觉规划:
-
基于观测图像和目标图像,规划出实现目标的最优动作序列。
-
支持从观测到目标的路径规划,适用于导航和机器人操作等任务。
-
Aether技术原理
-
多任务学习框架:
-
AETHER通过联合优化4D重建、视频预测和视觉规划三个核心任务,实现跨任务的知识共享。
-
采用任务交错的特征学习策略,随机组合输入和输出模态,使模型能够适应多种任务需求。
-
-
合成数据驱动的训练:
-
完全基于合成数据进行训练,通过自动标注流程生成高质量的4D合成数据。
-
提出了一种鲁棒的自动相机标注管道,能够处理从室内到室外、从静态到动态的各种场景。
-
-
相机轨迹作为动作表示:
-
选择相机姿态轨迹作为全局动作表示,适用于第一人称视角任务,如导航和机器人操作。
-
将相机轨迹编码为尺度不变的射线图序列,与视频扩散模型的时空框架兼容。
-
-
视频扩散模型的后训练:
-
基于预训练的CogVideoX-5b-I2V视频扩散模型进行后训练。
-
通过动态整合跨任务和跨模态的条件信号,实现多任务生成建模的联合优化。
-
-
多尺度损失函数:
-
在训练的第二阶段,引入多尺度结构相似性(MS-SSIM)损失、尺度和移不变损失(SSI)以及点云损失,确保生成结果在多个模态上的高质量和一致性。
-
通过这些损失函数,AETHER在颜色视频、深度视频和射线图上均实现了精确的对齐和优化。
-
Aether应用场景
-
自动驾驶:通过4D动态重建和视觉规划,AETHER可以实时感知和预测道路环境的变化,帮助自动驾驶系统提前规划行驶路径,提高安全性。
-
机器人导航与操作:利用目标条件下的视觉规划,机器人可以根据当前环境和目标位置,自主规划最优路径并执行任务,如在复杂环境中抓取物体。
-
虚拟现实(VR)与增强现实(AR):AETHER能够生成高度动态的虚拟场景,为VR和AR应用提供更逼真的视觉体验,增强用户的沉浸感。
-
智能监控:通过视频预测功能,AETHER可以实时分析监控视频,预测潜在的异常行为或事件,提高监控系统的智能化水平。
-
工业自动化:在工业生产中,AETHER可以用于动态场景的建模和预测,帮助自动化设备更好地适应复杂的生产环境,提高生产效率和质量。
-
游戏开发:AETHER能够生成高质量的动态场景和角色动作,为游戏开发提供更丰富的视觉效果和更真实的交互体验,提升游戏的沉浸感和趣味性。
Aether项目入口
- 项目官网:https://aether-world.github.io/
- GitHub仓库:https://github.com/OpenRobotLab/Aether
- HuggingFace模型库:https://huggingface.co/AetherWorldModel/AetherV1
- arXiv技术论文:https://arxiv.org/pdf/2503.18945
- 在线体验Demo:https://huggingface.co/spaces/AmberHeart/AetherV1
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...