ACE++:阿里通义实验室推出的图像生成与编辑框架

ACE++简介

ACE++是由阿里通义实验室开发的图像生成与编辑框架,基于指令驱动的扩散模型,专注于通过上下文感知的内容填充实现高质量的图像创作与编辑。该框架通过改进的长上下文条件单元(LCU++)和两阶段训练方案,有效整合了文本到图像模型的强大生成能力,显著降低了微调成本并提高了模型适应性。ACE++不仅提供了一个全面的多任务模型,还针对特定应用场景开发了轻量级模型,支持从局部编辑到全局生成的多样化任务。其开发团队通过创新的输入范式和高效的训练策略,推动了图像生成技术的发展,为视觉内容创作带来了新的可能性。

ACE++:阿里通义实验室推出的图像生成与编辑框架

ACE++主要功能

  1. 图像生成:ACE++能够根据用户的文本指令生成高质量的图像,适用于多种场景,如肖像生成、主题驱动生成等。
  2. 图像编辑:支持对现有图像进行编辑,包括局部编辑、全局编辑、颜色变化、视角变化等。
  3. 参考图像生成:基于给定的参考图像生成具有一致性特征的新图像,适用于保持特定对象或人物的一致性。
  4. 局部参考编辑:对图像的特定区域进行参考引导生成,支持零样本学习,无需在训练阶段专门训练这些任务。
  5. 轻量级模型支持:提供针对特定应用场景的轻量级模型,如肖像一致性、主题驱动生成、局部编辑和图像变体等。

ACE++技术原理

  1. 长上下文条件单元(LCU++)
    • 改进的输入范式:将条件输入从序列连接改为通道维度连接,减少了模型适应成本,提高了训练效率。
    • 多任务支持:LCU++能够处理多种任务,包括无参考图像的任务(0-ref任务)和有参考图像的任务(N-ref任务)。
  2. 两阶段训练方案
    • 单条件预训练阶段:基于文本到图像模型,使用0-ref任务数据进行预训练,快速开发对条件输入的支持。
    • 多条件微调阶段:在所有0-ref和N-ref任务数据上进行微调,以支持一般指令。
  3. 扩散模型
    • 基础模型:使用FLUX.1-dev FLUX作为基础模型,利用其强大的生成能力进行预训练和微调。
    • 噪声驱动生成:通过噪声单元驱动生成过程,模型被训练以预测速度,从而引导样本向目标样本靠近。
  4. 优化策略
    • AdamW优化器:使用AdamW优化器进行训练,权重衰减为1e-2,学习率为1e-3。
    • 梯度裁剪:使用L2范数的梯度裁剪,阈值为1.0,以稳定训练过程。
    • 指导尺度:训练过程中,将指导尺度ω设置为1.0,无条件概率设置为0.1,以考虑分类器自由指导的影响。
  5. 全面的模型工具包
    • 全功能模型:提供一个全面的多任务模型,支持各种图像编辑和生成任务。
    • 轻量级模型:针对特定应用场景开发了轻量级模型,支持社区内的创新应用。

ACE++应用场景

  1. 广告与营销:生成符合特定主题或风格的广告图像,如将产品放置在不同场景中展示,或为品牌设计创意海报。
  2. 影视特效:快速生成高质量的视觉特效,如将人物放置在虚拟场景中,或为电影设计奇幻元素。
  3. 电子商务:为电商平台生成产品展示图,如将商品放在不同的背景或使用场景中,提升用户体验。
  4. 游戏开发:快速生成游戏中的角色、场景和道具,提高开发效率,降低美术资源成本。
  5. 社交媒体内容创作:为社交媒体生成个性化图像,如将用户的照片与创意元素结合,制作有趣的分享内容。
  6. 艺术创作:辅助艺术家进行创意绘画,如生成灵感草图、风格化图像或进行局部细节编辑,激发创作灵感。

ACE++项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...