Loong:香港大学与字节跳动联合推出的一款长视频生成模型

Loong简介

Loong是由香港大学与字节跳动公司联合开发的一款新型的长视频生成模型,它能够生成内容连贯、动态丰富的分钟级长视频。该模型通过将文本和视频标记为统一序列,并采用创新的渐进式短到长训练策略与损失重新加权方案,有效克服了长视频训练中的挑战。Loong在保持视频外观一致性和场景转换自然性的同时,还能显著减少推理过程中的错误累积,展现了生成长视频的潜力。

Loong:香港大学与字节跳动联合推出的一款长视频生成模型

Loong主要功能

  1. 长视频生成:Loong能够生成长达一分钟的视频内容,这在以往的视频生成模型中是难以实现的。
  2. 内容丰富性:生成的视频不仅长度长,而且内容连贯,包含复杂的动态变化和自然的场景转换。
  3. 文本驱动:模型可以根据文本提示生成视频,实现文本到视频的转换。
  4. 高保真度:生成的视频具有较高的视觉质量,保持了细节的清晰度和动态的连贯性。

Loong技术原理

  1. 统一序列建模:Loong将文本标记和视频标记作为一个统一的序列进行建模,这使得模型能够以自回归的方式预测视频内容。
  2. 渐进式短到长训练:通过逐步增加训练视频的长度,Loong能够逐渐学习并适应更长的视频生成任务。
  3. 损失重新加权:为了解决长视频训练中的损失不平衡问题,Loong引入了损失重新加权方案,以增强对早期帧的监督。
  4. 视频标记重新编码:在视频扩展过程中,Loong通过重新编码最近几帧的视频标记来减少由于标记器的因果性质导致的错误累积。
  5. 采样策略:Loong采用了Top-k采样策略,以平衡视频生成的稳定性和多样性,减少潜在错误对后续标记生成的影响。
  6. 超分辨率和精细化处理:为了提升生成视频的空间分辨率和细节,Loong在后处理阶段应用了超分辨率和精细化模型。
  7. 自回归LLM基础:Loong基于自回归大型语言模型,利用其在捕捉长期依赖关系和复杂时间模式方面的成功经验,扩展到视频生成领域。

Loong应用场景

  1. 娱乐视频制作:用于生成音乐视频、短片或电影预告片,提供一种新颖的娱乐内容创作方式。
  2. 社交媒体内容:为社交媒体平台定制短视频,帮助内容创作者快速生成吸引眼球的视频素材。
  3. 教育和培训:创建教育视频,如历史重现、科学实验模拟,增强学习材料的吸引力和教育效果。
  4. 新闻和报道:生成新闻故事的视觉内容,提供更加生动的新闻报道形式。
  5. 广告和营销:设计吸引人的广告视频,根据产品特点快速生成创意广告内容。
  6. 虚拟旅游和展示:生成虚拟旅游视频,让用户通过视频体验不同地方的风景和文化。

Loong项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...