Video-T1：通过测试时扩展（TTS）显著提升视频生成质量

0 10

Video-T1简介

Video-T1 是一种创新的视频生成框架，旨在通过测试时扩展（Test-Time Scaling, TTS）显著提升视频生成质量。它将视频生成的 TTS 重新定义为从高斯噪声空间到目标视频分布的轨迹搜索问题，通过增加推理时的计算量，探索更广泛的潜在解决方案。Video-T1 引入了测试时验证器（test-time verifiers）来评估中间结果，并结合启发式算法高效导航搜索空间。它还提出了 Tree-of-Frames（ToF）搜索方法，以自回归方式自适应扩展和修剪视频分支，平衡计算成本与生成质量。实验表明，Video-T1 能显著提高视频生成模型在多个维度上的性能，同时大幅降低计算成本，为高效视频生成开辟了新途径。

Video-T1主要功能

提升视频生成质量：
- 通过在测试阶段增加计算量，显著提高视频生成模型的输出质量，使其更符合文本提示。
- 改善视频的语义对齐、运动连贯性和视觉质量等关键指标。
优化计算资源利用：
- 在不重新训练或扩大模型规模的情况下，通过测试时扩展（TTS）策略，高效利用计算资源，提升生成效果。
- 提供了一种在资源有限的场景下提升视频生成性能的可行方法。
支持多种视频生成模型：
- 兼容多种流行的视频生成模型，包括基于扩散模型和自回归模型的架构。
- 为不同类型的视频生成模型提供统一的优化框架。
增强视频生成的多样性：
- 通过扩展搜索空间，生成更多样化的视频内容，避免单一的输出结果。
- 提供更丰富的视觉表现和创意可能性。

Video-T1技术原理

测试时扩展（Test-Time Scaling, TTS）：
- 将视频生成的测试阶段视为一个搜索问题，通过增加计算量来探索更广泛的潜在解决方案。
- 在测试时动态调整生成路径，寻找更高质量的视频轨迹。
测试时验证器（Test-Time Verifiers）：
- 使用多模态验证模型对生成的视频进行质量评估，提供反馈。
- 验证器根据视频的语义对齐、运动连贯性等多维度指标打分，引导搜索方向。
启发式搜索算法：
- 随机线性搜索（Random Linear Search）：通过增加噪声候选样本的数量，线性地增加计算量，选择得分最高的视频序列。
- Tree-of-Frames（ToF）搜索：通过自回归方式在树结构下自适应扩展和修剪视频分支，平衡计算成本和生成质量。ToF 搜索在每个时间步动态分支并进行启发式剪枝，保留最有潜力的生成路径。
图像级对齐（Image-level Alignment）：
- 在生成每一帧时，引入动态评估机制，确保生成的帧在视觉上具有足够的清晰度和高质量潜力。
- 通过早期拒绝低质量候选和分配更多计算资源给有潜力的轨迹，提高资源利用效率。
层次化提示（Hierarchical Prompting）：
- 将视频生成过程分为三个阶段：初始帧生成、中间帧生成和最终帧评估。
- 为每个阶段设计特定的提示，确保生成的视频在语义和运动上与文本提示一致。
多验证器集成（Multi-Verifiers）：
- 结合多个验证器的评估结果，通过加权平均或投票机制选择最佳视频。
- 减少单一验证器的偏差，提高生成视频的整体质量。