On-device Sora：移动设备端文本到视频生成框架

0 90

On-device Sora简介

On-device Sora 是一款开创性的移动设备端文本到视频生成框架，能够在智能手机上高效生成高质量视频。它基于 Open-Sora 架构，通过线性比例跳跃（LPL）技术减少去噪步骤，利用时间维度令牌合并（TDTM）降低计算复杂度，并采用并发推理与动态加载（CI-DL）解决内存限制，从而在计算和内存资源受限的移动设备上实现高效的视频生成。On-device Sora 不仅提升了视频生成的可访问性，还增强了用户隐私，降低了对云基础设施的依赖，并显著减少了成本。它为将先进的生成技术普及到普通移动设备上迈出了重要一步，未来有望进一步拓展到多模态生成任务，推动移动设备端生成技术的革命。

On-device Sora主要功能

文本到视频生成：能够根据用户输入的文本描述生成高质量的视频。
高效视频生成：在智能手机等移动设备上实现高效的视频生成，减少对高端GPU和云计算资源的依赖。
隐私保护：通过在设备本地生成视频，避免数据传输和潜在的数据泄露风险。
个性化视频生成：支持根据用户的个性化需求生成定制化视频内容。

On-device Sora技术原理

线性比例跳跃（Linear Proportional Leap, LPL）：
- 原理：利用Rectified Flow的线性轨迹特性，在去噪过程中跳过部分步骤，直接向目标数据分布跃迁。
- 效果：减少近一半的去噪步骤，显著加快视频生成速度而不降低视频质量。
时间维度令牌合并（Temporal Dimension Token Merging, TDTM）：
- 原理：通过合并连续的视频帧（令牌），减少需要处理的令牌数量，从而降低计算复杂度。
- 效果：将令牌处理量减少一半，注意力模块的计算复杂度降低至四分之一，提高模型的推理速度。
并发推理与动态加载（Concurrent Inference with Dynamic Loading, CI-DL）：
- 原理：将大型模型分割成小块，动态地将这些模型块加载到内存中进行并发推理。
- 效果：通过并行化模型执行和块加载，有效加速迭代模型推理，提高内存利用率，减少推理延迟。