WorldScore:斯坦福大学推出的世界生成模型统一评估基准
WorldScore简介
WorldScore是由斯坦福大学的研究团队开发的一个用于世界生成模型的统一评估基准。该基准旨在系统地评估不同类型的3D、4D、I2V和T2V世界生成模型,通过将世界生成任务分解为一系列下一个场景生成任务,并提供显式的相机轨迹布局规范来实现统一评估。WorldScore包含3000个高质量的测试样本,覆盖静态和动态、室内和室外、写实和风格化的多样化世界场景。其评估指标从可控性、质量和动态性三个关键方面对生成世界进行量化评估。通过广泛的模型测试,WorldScore揭示了当前世界生成方法的优势与挑战,为未来的研究提供了重要指导。

WorldScore主要功能
-
统一评估:
-
提供一个标准化的评估框架,能够对不同类型的3D、4D、I2V(图像到视频)和T2V(文本到视频)模型进行统一评估。
-
支持对静态和动态世界生成任务的全面评估,覆盖多种视觉风格(如写实和风格化)以及不同场景(如室内和室外)。
-
-
多维度评估:
-
从可控性(如相机控制、对象控制和内容对齐)、质量(如3D一致性、光度一致性和风格一致性)和动态性(如运动准确性、运动幅度和运动平滑性)三个关键方面对生成世界进行量化评估。
-
提供详细的评估指标,帮助研究者和开发者深入了解模型的性能和改进方向。
-
-
多样化数据集:
-
提供一个高质量、多样化的数据集,包含3000个测试样本,覆盖静态和动态世界生成场景,包括室内和室外环境以及写实和风格化视觉领域。
-
数据集支持多种任务,如长序列生成、不同视觉风格的评估等。
-
-
基准和排行榜:
-
提供一个公开的排行榜,展示不同模型在WorldScore基准上的表现,促进研究社区的公平竞争和进步。
-
通过评估多种代表性模型,揭示当前世界生成方法的优势和挑战,为未来研究提供指导。
-
WorldScore技术原理
-
任务分解:
-
将世界生成任务分解为一系列“下一个场景生成”任务,每个任务由一个三元组(C, N, L)定义:
-
C:当前场景,包括一个场景图像和一个文本提示。
-
N:下一个场景的文本提示。
-
L:布局规范,包括相机轨迹和文本描述。
-
-
这种分解方式使得不同类型的模型(如3D、4D、I2V和T2V)都能在统一的框架下被评估。
-
-
数据集构建:
-
静态世界生成:包含10个类别(5个室内场景和5个室外场景),每个类别有100个高质量的样本。
-
动态世界生成:包含5种动态类型(如刚体运动、流体运动等),每种类型有100个样本。
-
每个样本都有对应的风格化版本,以支持多种视觉风格的评估。
-
-
评估指标:
-
可控性:
-
相机可控性:通过计算生成视频的相机轨迹与目标轨迹的偏差来评估。
-
对象可控性:通过检测生成场景中指定对象的出现率来评估。
-
内容对齐:使用CLIPScore评估生成场景与文本提示的一致性。
-
-
质量:
-
3D一致性:使用DROID-SLAM估计密集像素深度,并计算重投影误差。
-
光度一致性:通过估计连续帧之间的光流并计算平均端点误差(AEPE)来评估。
-
风格一致性:通过计算Gram矩阵的差异来评估生成场景的风格一致性。
-
主观质量:结合CLIPIQA+和CLIP Aesthetic指标,通过人类偏好研究选择最佳组合。
-
-
动态性:
-
运动准确性:通过比较生成视频中指定区域的光流与非指定区域的光流来评估。
-
运动幅度:通过估计连续帧之间的光流幅度来评估。
-
运动平滑性:使用视频帧插值模型生成平滑插值作为参考,评估生成视频的平滑性。
-
-
-
模型适配:
-
通过预处理模块(wproc)将输入标准化,以适应不同模型的需求。例如,为3D/4D模型提供精确的相机姿态,为视频模型提供文本描述。
-
支持多种输入格式,包括图像、文本和相机轨迹,确保不同类型的模型都能在统一的框架下被评估。
-
WorldScore应用场景
-
影视制作:用于评估和选择适合生成虚拟场景和特效的模型,提高制作效率和质量。
-
游戏开发:帮助开发者选择和优化用于生成游戏世界和动画的模型,提升游戏的沉浸感和视觉效果。
-
虚拟现实(VR)和增强现实(AR):评估生成虚拟环境和动态场景的能力,为VR/AR应用提供更逼真的体验。
-
教育与培训:用于生成模拟环境和动态场景,支持教育和培训中的虚拟实践和场景模拟。
-
建筑设计与规划:评估模型生成室内和室外建筑场景的能力,辅助建筑设计和城市规划。
-
广告与营销:生成高质量的动态广告内容和虚拟场景,提升广告的吸引力和影响力。
WorldScore项目入口
- 项目主页:https://haoyi-duan.github.io/WorldScore/
- Github代码库:https://github.com/haoyi-duan/WorldScore
- arXiv技术论文:https://arxiv.org/pdf/2504.00983
- HuggingFace数据集:https://huggingface.co/datasets/Howieeeee/WorldScore
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...