Mobius：能够直接从文本描述生成无缝循环视频

0 80

Mobius简介

Mobius是由重庆邮电大学、美团、大湾区大学、澳门大学和重庆邮电大学的研究团队共同开发的一种创新方法，能够直接从文本描述生成无缝循环视频。该方法通过重新利用预训练的文本到视频潜在扩散模型，并在推理过程中引入潜在循环和位移策略，实现了无需用户注释的循环视频生成。Mobius不仅解决了传统循环视频制作的复杂性问题，还通过帧不变解码和旋转位置编码插值等技术提升了生成视频的质量和连贯性。它在多个实验中表现出色，尤其在长视频生成任务中展现了广阔的应用潜力。

Mobius主要功能

无缝循环视频生成：Mobius能够直接从文本描述生成无缝循环视频，无需用户手动标注或额外训练。生成的视频在视觉上自然流畅，适合用于社交媒体、动画GIF和屏保等场景。
任意长度的视频生成：通过潜在空间的循环和位移策略，Mobius可以生成任意长度的循环视频，突破了传统视频扩散模型的上下文限制，支持更长视频的生成。
高质量视觉效果：Mobius通过帧不变解码和旋转位置编码插值等技术，显著提升了生成视频的视觉质量和时间一致性，避免了伪影和运动不连贯的问题。
动态内容生成：与传统cinemagraph方法相比，Mobius不依赖于静态图像作为外观，能够生成更具动态性的运动效果，包括物体运动和相机运动。
长视频生成扩展：Mobius不仅适用于循环视频生成，还可以扩展到长视频生成任务，支持更复杂的动态场景和连贯的运动表现。

Mobius技术原理

潜在循环构建（Latent Cycle Construction）：Mobius通过连接视频的起始和结束噪声，构建一个潜在循环。在推理过程中，逐步将第一帧的潜在表示移动到最后，使得视频模型在每个去噪步骤中保持时间一致性，从而生成无缝循环视频。
潜在位移（Latent Shift）：在每次去噪步骤中，Mobius通过将第一帧的潜在表示移动到最后，生成新的噪声潜在表示用于去噪。这种方法使得视频模型在每个步骤中都能保持时间一致性，并且可以生成任意长度的循环视频。
帧不变潜在解码（Frame-Invariant Latent Decoding）：由于预训练的视频扩散模型对第一帧的处理方式与其他帧不同，Mobius引入帧不变解码技术，通过复制最后三帧的潜在表示并插入到第一帧之前，消除这种不一致性，从而避免生成的循环视频中出现伪影。
旋转位置编码插值（Rotary Position Embedding Interpolation）：为了支持更长的循环视频生成，Mobius引入了旋转位置编码（RoPE）插值方法。通过扩展预训练模型的位置编码能力，使得模型能够处理超出原始训练上下文的长视频生成任务，同时保持视频的连贯性和一致性。
基于扩散模型的推理：Mobius基于预训练的文本到视频潜在扩散模型（如CogVideoX），在推理阶段通过修改潜在空间的输入，实现无缝循环视频的生成。这种方法无需额外训练，充分利用了扩散模型的生成能力，同时通过潜在位移和位置编码插值等技术优化生成效果。