GAIA-2:Wayve团队开发的可控多视角生成式世界模型

GAIA-2简介

GAIA-2是由Wayve团队开发的可控多视角生成式世界模型,专为自动驾驶领域设计。该模型通过其创新的架构和训练方法,能够生成高分辨率、时空一致的多相机视频,并支持多种条件输入,如自车动力学、地理区域、天气、道路布局等,从而实现对驾驶场景的精细控制。GAIA-2在大规模数据集上进行训练,覆盖了英国、美国和德国的多样化驾驶环境,展现出强大的场景生成能力和对罕见安全关键场景的模拟能力。它不仅支持从无到有的生成,还能进行基于过去的预测、选择性内容编辑等多种推理模式,为自动驾驶的模拟、训练和评估提供了强大而灵活的工具。

GAIA-2:Wayve团队开发的可控多视角生成式世界模型

GAIA-2主要功能

  1. 高分辨率多相机视频生成
    • 支持生成高分辨率(448×960)的多相机视频,最多可同时生成5个时空一致的相机流。
    • 适用于地理多样化的驾驶环境(如英国、美国、德国),满足自动驾驶系统对多视角输入的需求。
  2. 细粒度的条件控制
    • 支持多种条件输入,包括自车动力学(速度、曲率)、地理区域、一天中的时间、天气、道路布局特征(如车道数量和类型、人行横道、交通灯等)。
    • 可直接控制场景中动态代理(如其他车辆、行人)的位置、方向和尺寸,能够生成从常见到罕见的各种驾驶场景。
  3. 多种推理模式
    • 从无到有的生成:从纯高斯噪声开始,通过条件引导生成完整的视频。
    • 基于过去的预测:根据过去的视频上下文预测未来的视频帧,支持长时序的视频生成。
    • 时空修复:在视频的特定区域进行内容编辑,如插入或修改动态代理,同时保持背景一致性。
    • 场景编辑:通过部分噪声化和去噪,对真实视频进行语义或风格上的变换,如改变天气、时间或道路布局。
  4. 支持外部潜在嵌入:支持条件输入包括CLIP嵌入和专有驾驶模型生成的场景嵌入,实现对场景内容的语义控制,便于与下游规划或感知模块集成。

GAIA-2技术原理

  1. 视频标记器(Video Tokenizer)
    • 编码器:将输入视频帧通过时空下采样,压缩到紧凑的连续潜在空间,保留语义和时间结构。采用32倍的空间下采样和8倍的时间下采样,得到语义丰富的潜在表示。
    • 解码器:将潜在表示解码回像素空间,利用全时空注意力确保时间一致性。采用滚动推理机制,通过滑动窗口解码长序列视频。
  2. 潜在世界模型(Latent World Model)
    • 基于时空分解的Transformer架构,包含22个Transformer块,隐藏维度为4096,32个头。
    • 使用流匹配(flow matching)进行训练,通过线性插值将未来潜在状态与随机高斯噪声混合,预测目标速度向量。
    • 支持多种条件输入,通过自适应层归一化(adaptive layer norm)和交叉注意力(cross-attention)机制将条件信息融入模型。
  3. 条件输入处理
    • 自车动作:通过对速度和曲率进行对数变换,将其归一化到[-1, 1]范围内,提高训练稳定性。
    • 动态代理:使用3D边界框表示周围代理的位置、方向和类别,通过投影到2D图像平面并归一化处理,支持在训练中对特征维度和实例进行dropout,增强模型的鲁棒性。
    • 场景元数据:对地理区域、天气、时间、道路布局等元数据进行嵌入,使模型能够学习不同场景特征之间的关系。
    • 外部潜在嵌入:支持CLIP嵌入和专有驾驶模型生成的场景嵌入,通过线性投影将它们融入模型的潜在空间,实现语义控制。
  4. 训练策略
    • 视频标记器和潜在世界模型分别独立训练,采用大规模计算基础设施和定制的损失函数。
    • 视频标记器使用像素重建损失、感知损失和语义对齐损失进行训练,同时通过GAN损失进行微调,提高视觉质量。
    • 潜在世界模型使用流匹配时间分布进行训练,通过双峰logit正态分布控制模型在低噪声和高噪声区域的学习频率,提高泛化能力和样本质量。

GAIA-2应用场景

  1. 自动驾驶系统训练:通过生成多样化的驾驶场景,为自动驾驶算法提供丰富的训练数据,提升模型对不同环境和罕见事件的泛化能力。
  2. 安全关键场景模拟:能够生成罕见但关键的安全场景,如紧急制动、突然变道等,用于测试和验证自动驾驶系统的应对能力。
  3. 多相机系统测试:支持生成多视角视频,模拟不同车辆平台和相机配置下的驾驶场景,用于测试自动驾驶车辆的多相机感知系统。
  4. 数据增强:对真实驾驶数据进行增强,通过部分噪声化和去噪等技术生成更多变的场景,扩充训练数据集。
  5. 场景编辑与修复:支持对现有视频进行时空修复和语义编辑,如插入或修改动态代理,用于创建特定的测试场景。
  6. 驾驶行为研究:通过条件生成,研究不同驾驶行为(如加速、减速、转弯)对场景的影响,为驾驶行为建模和预测提供支持。

GAIA-2项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...