PCM项目简介
PCM(Phased Consistency Model)是由香港中文大学多媒体实验室、Avolution AI、Hedra、上海人工智能实验室、Sensetime Research以及斯坦福大学的研究团队共同开发的一种新型图像和视频生成模型。该模型通过将扩散模型的迭代评估过程分解为多个子轨迹,并在每个子轨迹上强制执行自一致性属性,显著提高了高分辨率、文本条件图像生成的质量和效率。PCM模型不仅在多步细化中表现出色,而且在单步生成结果上也达到了与之前最先进方法相当的水平,展示了其在加速生成扩散模型方面的潜力。

PCM主要功能
❶加速图像生成:大幅减少生成高质量图像所需的时间。
❷文本到图像转换:根据文本描述直接生成对应图像。
❸多步细化:通过多步骤迭代生成过程,逐步提升图像质量。
❹高分辨率支持:能够处理并生成高分辨率的图像。
❺视频生成能力:将图像生成技术扩展到视频,实现文本到视频的转换。
❻一致性保证:确保在不同生成步骤下图像质量的一致性。
❼控制性增强:提供更精细的控制,以适应不同的生成需求和偏好。
PCM应用场景
❶艺术创作:艺术家和设计师使用PCM生成独特的视觉作品。
❷游戏开发:快速生成游戏内的角色、场景和纹理。
❸电影制作:用于生成电影中的特效和动画预览。
❹广告行业:创造吸引人的广告图像和视频内容。
❺社交媒体:用户生成个性化的社交媒体帖子和故事。
❻虚拟试穿:电子商务中,用户可以生成自己试穿服装的图像。
PCM技术原理
❶潜态一致性问题识别:PCM识别了现有LCM设计中的三个关键缺陷,包括一致性、可控性和效率问题。
❷相位化设计:PCM将整个ODE(常微分方程)轨迹划分为多个子轨迹,并对每个子轨迹分别强制执行自一致性属性。
❸自一致性属性:PCM通过在每个子轨迹上实施自一致性,允许模型以确定性方式采样,避免了误差累积。
❹多步采样能力:PCM支持多步采样,确保在不同的推理步骤下生成结果的一致性。
❺对抗性损失:为了提高在少步骤设置下的样本质量,PCM引入了潜在空间中的对抗性损失,以实现更细粒度的监督。
❻分类器自由引导(CFG)策略:PCM重新审视了LCM中引导蒸馏的潜在损害,并提出了在PCM蒸馏中去除CFG策略,以提高文本引导的可控性。
❼高效优化:PCM提供了一种新的蒸馏方法,可以高效优化并支持无额外随机误差的确定性采样。
PCM项目入口
- 官方项目主页:https://g-u-n.github.io/projects/pcm/
- GitHub源码库:https://github.com/G-U-N/Phased-Consistency-Model
- arXiv研究论文:https://arxiv.org/abs/2405.18407
- Hugging Face Demo:https://huggingface.co/spaces/wangfuyun/Phased-Consistency-Model-PCM