LanDiff：浙江大学文本到视频生成模型

0 100

LanDiff简介

LanDiff是一种新型的文本到视频（Text-to-Video, T2V）生成模型，它通过结合自回归语言模型（LLM）和扩散模型（Diffusion Model）的优势，实现了高质量的视频生成。该模型采用两阶段生成范式：首先利用语义分词器将3D视觉特征压缩为紧凑的1D离散表示，并通过LLM生成粗粒度的视频语义；随后，流式扩散模型将这些语义细化为高保真视频。LanDiff在VBench T2V基准测试中取得了85.43的高分，超越了现有的开源和商业模型，展现出卓越的语义理解和视觉质量。此外，它在长视频生成任务中也表现出色，证明了其在复杂视频生成场景中的强大能力。LanDiff的设计不仅弥补了单一模型的局限性，还为未来多模态生成任务提供了新的思路。

LanDiff主要功能

高质量文本到视频生成：LanDiff能够根据文本描述生成高质量的视频内容，同时在语义一致性和视觉质量上表现出色。
长视频生成：该模型支持长视频生成，能够生成连贯且动态丰富的长视频内容。
语义理解和因果建模：通过结合语言模型的优势，LanDiff能够理解文本中的语义信息，并生成符合描述的视频内容。
高效压缩与生成：LanDiff采用高效的语义分词技术，将视频特征压缩为紧凑的离散表示，显著降低了计算成本。

LanDiff技术原理

语义分词器（Semantic Tokenizer）
- 使用预训练的视觉模型（如Theia）提取视频的语义特征。
- 通过查询嵌入和向量量化技术，将3D视觉特征压缩为紧凑的1D离散表示，压缩比高达14,000倍。
- 采用类似MP4的帧分组策略，对关键帧（IFrame）和预测帧（PFrame）分别编码，减少冗余信息。
语言模型（LLM）
- 基于LLaMA架构，负责从文本描述中生成语义分词。
- 通过自回归生成方式，逐步构建视频的语义蓝图，确保语义一致性和因果关系。
流式扩散模型（Streaming Diffusion Model）
- 以语义分词为条件，逐步去除噪声，生成高保真的视频特征。
- 采用分块流式策略，支持长视频生成，降低计算成本。
VAE解码器
- 将生成的视频特征解码为最终的RGB视频帧，实现高质量的视觉输出。
两阶段生成范式
- 第一阶段：LLM生成粗粒度的视频语义。
- 第二阶段：扩散模型细化语义，生成高质量视频。
  这种分阶段生成方式充分发挥了LLM和扩散模型的优势，同时避免了它们各自的局限性。