VideoReward：快手联合清华等高校推出的多维视频奖励模型

0 90

VideoReward简介

VideoReward是由快手科技联合清华大学、香港中文大学和上海交通大学共同开发的多维视频奖励模型。该模型旨在通过人类反馈提升视频生成的质量和与人类偏好的一致性。开发团队构建了一个大规模的多维偏好数据集，涵盖视觉质量、运动质量和文本对齐等关键维度，并基于强大的视觉语言模型（VLM）训练VideoReward，使其能够准确预测人类对视频生成结果的偏好。此外，团队还提出了多种对齐算法，如Flow-DPO、Flow-RWR和Flow-NRG，从强化学习的角度优化视频生成模型。VideoReward在多个基准测试中表现出色，显著优于现有的奖励模型，为视频生成技术的发展提供了重要的支持。

VideoReward主要功能

多维视频质量评估：VideoReward能够从视觉质量（VQ）、运动质量（MQ）和文本对齐（TA）三个关键维度评估生成视频的质量。
人类偏好学习：通过大规模的人类偏好数据集，VideoReward能够学习和预测用户对视频生成结果的偏好，从而指导视频生成模型的优化。
视频生成模型对齐：VideoReward通过多种对齐算法（如Flow-DPO、Flow-RWR和Flow-NRG），在训练和推理过程中对视频生成模型进行优化，使生成的视频更符合用户的偏好。
个性化视频质量控制：在推理阶段，用户可以为多个对齐目标分配自定义权重，满足个性化的视频质量需求。

VideoReward技术原理

大规模人类偏好数据集构建：
- 数据来源：从12个先进的视频生成模型中生成约182k个标注样本。
- 标注方式：采用成对标注的方式，让标注者对两个视频进行比较，并在视觉质量、运动质量和文本对齐三个维度上表达偏好。
多维视频奖励模型（VideoReward）：
- 模型基础：基于Qwen2-VL-2B视觉语言模型，采用Bradley-Terry模型与Ties（BTT）扩展，以更好地处理平局情况。
- 设计选择：通过引入独立的特殊标记来预测每个维度的分数，从而实现上下文无关和上下文相关属性的解耦，提高模型的解释性和独立评估能力。
视频生成模型的对齐算法：
- Flow-DPO（直接偏好优化）：通过最小化与参考模型的KL散度来优化模型，使其更符合人类偏好。研究发现，使用固定β值的Flow-DPO在某些任务上表现优于原始的基于时间步的β值。
- Flow-RWR（奖励加权回归）：通过奖励加权的方式优化模型，使其更倾向于生成高奖励的样本。
- Flow-NRG（噪声奖励引导）：在推理阶段应用奖励引导，允许用户在推理时为多个对齐目标分配自定义权重，无需重新训练模型。
奖励模型训练：
- 训练方法：使用BTT损失函数训练奖励模型，发现更高的视频分辨率和更多的帧数能提高模型性能。
- 评估基准：构建了VideoGen-RewardBench基准，包含26.5k个视频对，用于评估现代视频扩散模型。