VideoReward:快手联合清华等高校推出的多维视频奖励模型
VideoReward简介
VideoReward是由快手科技联合清华大学、香港中文大学和上海交通大学共同开发的多维视频奖励模型。该模型旨在通过人类反馈提升视频生成的质量和与人类偏好的一致性。开发团队构建了一个大规模的多维偏好数据集,涵盖视觉质量、运动质量和文本对齐等关键维度,并基于强大的视觉语言模型(VLM)训练VideoReward,使其能够准确预测人类对视频生成结果的偏好。此外,团队还提出了多种对齐算法,如Flow-DPO、Flow-RWR和Flow-NRG,从强化学习的角度优化视频生成模型。VideoReward在多个基准测试中表现出色,显著优于现有的奖励模型,为视频生成技术的发展提供了重要的支持。

VideoReward主要功能
-
多维视频质量评估:VideoReward能够从视觉质量(VQ)、运动质量(MQ)和文本对齐(TA)三个关键维度评估生成视频的质量。
-
人类偏好学习:通过大规模的人类偏好数据集,VideoReward能够学习和预测用户对视频生成结果的偏好,从而指导视频生成模型的优化。
-
视频生成模型对齐:VideoReward通过多种对齐算法(如Flow-DPO、Flow-RWR和Flow-NRG),在训练和推理过程中对视频生成模型进行优化,使生成的视频更符合用户的偏好。
-
个性化视频质量控制:在推理阶段,用户可以为多个对齐目标分配自定义权重,满足个性化的视频质量需求。
VideoReward技术原理
-
大规模人类偏好数据集构建:
-
数据来源:从12个先进的视频生成模型中生成约182k个标注样本。
-
标注方式:采用成对标注的方式,让标注者对两个视频进行比较,并在视觉质量、运动质量和文本对齐三个维度上表达偏好。
-
-
多维视频奖励模型(VideoReward):
-
模型基础:基于Qwen2-VL-2B视觉语言模型,采用Bradley-Terry模型与Ties(BTT)扩展,以更好地处理平局情况。
-
设计选择:通过引入独立的特殊标记来预测每个维度的分数,从而实现上下文无关和上下文相关属性的解耦,提高模型的解释性和独立评估能力。
-
-
视频生成模型的对齐算法:
-
Flow-DPO(直接偏好优化):通过最小化与参考模型的KL散度来优化模型,使其更符合人类偏好。研究发现,使用固定β值的Flow-DPO在某些任务上表现优于原始的基于时间步的β值。
-
Flow-RWR(奖励加权回归):通过奖励加权的方式优化模型,使其更倾向于生成高奖励的样本。
-
Flow-NRG(噪声奖励引导):在推理阶段应用奖励引导,允许用户在推理时为多个对齐目标分配自定义权重,无需重新训练模型。
-
-
奖励模型训练:
-
训练方法:使用BTT损失函数训练奖励模型,发现更高的视频分辨率和更多的帧数能提高模型性能。
-
评估基准:构建了VideoGen-RewardBench基准,包含26.5k个视频对,用于评估现代视频扩散模型。
-
VideoReward应用场景
-
视频内容创作:帮助视频创作者快速生成高质量的视频内容,提升创作效率,尤其是在广告、短视频和影视制作等领域。
-
虚拟现实(VR)和增强现实(AR):优化虚拟场景中的视频生成,增强沉浸感,为用户提供更逼真的视觉体验。
-
游戏开发:用于生成游戏中的动态背景和角色动画,提升游戏的视觉效果和交互性。
-
教育与培训:生成教育视频,如模拟实验、历史场景重现等,增强学习的趣味性和直观性。
-
社交媒体:为用户提供个性化的视频生成服务,满足用户在社交媒体上分享高质量视频的需求。
-
智能客服与虚拟助手:生成与用户需求高度匹配的视频回答,提升用户体验和信息传达的效率。
VideoReward项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...