BlockDance：复旦大学联合字节推出的扩散模型加速方法

0 60

BlockDance简介

BlockDance是由复旦大学智能信息处理实验室、上海智能视觉计算协同创新中心以及字节跳动智能创作团队共同开发的一种加速扩散变换器（Diffusion Transformers，简称DiTs）的训练无关方法。该方法通过识别和重用在去噪过程中结构上高度相似的时空特征，有效减少了冗余计算，从而显著提高了DiTs的推理速度。BlockDance专注于Transformer架构中浅层和中层块的结构特征，这些特征在相邻时间步中表现出高度相似性，尤其在结构稳定后。通过缓存和重用这些特征，BlockDance能够在保持与原始模型生成结果高度一致的同时，实现25%到50%的加速效果。此外，团队还提出了BlockDance-Ada，这是一个轻量级的决策网络，能够根据生成内容的复杂性动态调整资源分配，进一步优化加速效果和内容质量。

BlockDance主要功能

加速扩散变换器（DiTs）的推理过程：
- 通过减少冗余计算，显著提高DiTs的推理速度，加速比可达25%-50%。
- 在保持生成内容质量的同时，实现高效的实时生成。
保持生成内容的高质量和一致性：
- 通过缓存和重用高度相似的结构特征，确保生成结果与原始模型高度一致。
- 维护生成内容的视觉质量和语义对齐，避免因加速导致的结构失真或语义偏差。
支持多种生成任务和模型：
- 适用于图像生成（如类别条件生成、文本到图像）和视频生成（如文本到视频）等多种任务。
- 兼容多种扩散模型，如DiT-XL/2、PixArt-α和Open-Sora等。
动态资源分配（通过BlockDance-Ada）：
- 根据生成内容的复杂性动态调整计算资源分配，进一步优化加速效果和内容质量。
- 通过强化学习框架学习实例特定的加速策略，适应不同场景下的需求。

BlockDance技术原理

特征相似性分析：
- 通过分析扩散模型在相邻时间步之间的特征相似性，发现浅层和中层Transformer块中的特征在结构稳定后表现出高度相似性。
- 这些特征主要集中在低频结构信息上，变化较小，适合缓存和重用。
缓存与重用机制：
- 在去噪过程中，将特征分为“缓存步骤”和“重用步骤”。
- 在缓存步骤中，模型执行标准前向传播并保存特定块的特征；在重用步骤中，直接使用缓存的特征作为输入，跳过前i个块的计算，从而减少冗余计算。
结构化特征重用：
- 专注于重用结构上相似的时空特征（Structurally Similar Spatio-Temporal, STSS特征），避免因重用低相似性特征导致的质量下降。
- 通过实验验证，结构稳定后重用这些特征可以最大限度地减少对生成结果的影响。
动态加速策略（BlockDance-Ada）：
- 基于强化学习框架，通过策略梯度方法学习动态分配计算资源的策略。
- 根据提示和中间潜在变量，决定每个步骤是缓存步骤还是重用步骤，从而在保持质量的同时最小化计算量。
- 通过优化奖励函数，平衡计算效率和生成质量，实现实例特定的加速策略。