Loong：香港大学与字节跳动联合推出的一款长视频生成模型

3-3.视频生成模型6个月前发布 AI-77

0 70

Loong简介

Loong是由香港大学与字节跳动公司联合开发的一款新型的长视频生成模型，它能够生成内容连贯、动态丰富的分钟级长视频。该模型通过将文本和视频标记为统一序列，并采用创新的渐进式短到长训练策略与损失重新加权方案，有效克服了长视频训练中的挑战。Loong在保持视频外观一致性和场景转换自然性的同时，还能显著减少推理过程中的错误累积，展现了生成长视频的潜力。

Loong：香港大学与字节跳动联合推出的一款长视频生成模型

Loong主要功能

长视频生成：Loong能够生成长达一分钟的视频内容，这在以往的视频生成模型中是难以实现的。
内容丰富性：生成的视频不仅长度长，而且内容连贯，包含复杂的动态变化和自然的场景转换。
文本驱动：模型可以根据文本提示生成视频，实现文本到视频的转换。
高保真度：生成的视频具有较高的视觉质量，保持了细节的清晰度和动态的连贯性。

Loong技术原理

统一序列建模：Loong将文本标记和视频标记作为一个统一的序列进行建模，这使得模型能够以自回归的方式预测视频内容。
渐进式短到长训练：通过逐步增加训练视频的长度，Loong能够逐渐学习并适应更长的视频生成任务。
损失重新加权：为了解决长视频训练中的损失不平衡问题，Loong引入了损失重新加权方案，以增强对早期帧的监督。
视频标记重新编码：在视频扩展过程中，Loong通过重新编码最近几帧的视频标记来减少由于标记器的因果性质导致的错误累积。
采样策略：Loong采用了Top-k采样策略，以平衡视频生成的稳定性和多样性，减少潜在错误对后续标记生成的影响。
超分辨率和精细化处理：为了提升生成视频的空间分辨率和细节，Loong在后处理阶段应用了超分辨率和精细化模型。
自回归LLM基础：Loong基于自回归大型语言模型，利用其在捕捉长期依赖关系和复杂时间模式方面的成功经验，扩展到视频生成领域。

Loong应用场景

娱乐视频制作：用于生成音乐视频、短片或电影预告片，提供一种新颖的娱乐内容创作方式。
社交媒体内容：为社交媒体平台定制短视频，帮助内容创作者快速生成吸引眼球的视频素材。
教育和培训：创建教育视频，如历史重现、科学实验模拟，增强学习材料的吸引力和教育效果。
新闻和报道：生成新闻故事的视觉内容，提供更加生动的新闻报道形式。
广告和营销：设计吸引人的广告视频，根据产品特点快速生成创意广告内容。
虚拟旅游和展示：生成虚拟旅游视频，让用户通过视频体验不同地方的风景和文化。

Loong项目入口

项目主页：https://epiphqny.github.io/Loong-video
arXiv技术论文：https://arxiv.org/pdf/2410.02757v1

# 3-3.视频生成模型 # 3.AI大模型数据库 # AI开源项目 # AI项目合集

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

VideoWorld：字节联合北京交通大学等推出的视频生成模型

AI-77cn

20

SF3D：Stability AI推出的能在0.5秒内从单张图片生成3D模型

AI-77cn

60

PsycoLLM：一款专门针对心理领域的大型语言模型

AI-77cn

40

Falcon Mamba 7B：TII 推出的首个通用Mamba开源大模型

AI-77cn

90

ID-Animator：单张人脸照片就可以生成高质量的特定人体视频

AI-77cn

100

Unbounded：谷歌推出的利用大模型生成角色和环境的游戏

AI-77cn

100

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号