EvolveDirector:新加坡国立大学&阿里联合推出的图像生成框架
EvolveDirector简介
EvolveDirector是由新加坡国立大学Show Lab和阿里巴巴集团共同开发的一种先进文本到图像生成框架。该框架通过与现有先进模型的公共API交互获取数据对,利用预训练的大型视觉-语言模型(VLMs)指导基础模型的进化,显著减少了训练过程中所需的数据量和成本。EvolveDirector不仅能够模仿先进模型的生成能力,还能通过选择多个模型中的最佳样本来提升性能,最终训练出的模型Edgen在多个方面超越了现有的先进模型。

EvolveDirector主要功能
- 文本到图像生成:EvolveDirector能够训练出一个模型,该模型能够根据文本提示生成高质量的图像。
- 与先进模型API交互:通过与先进文本到图像模型的API交互,获取训练所需的文本-图像数据对。
- 数据集动态更新:利用视觉-语言模型(VLMs)动态更新和优化训练数据集,以提高训练效率。
- 性能提升:通过选择多个先进模型中的最佳样本进行学习,提升模型的生成能力。
- 开源贡献:提供代码和模型权重,以促进下游任务的发展和研究。
EvolveDirector技术原理
- API交互:EvolveDirector通过与先进模型的API交互,提交文本提示并接收对应的生成图像,构建合成基准数据集。
- 数据集动态管理:
- 判别(Discrimination):VLM评估基础模型生成的图像与先进模型生成的图像,选择更好的图像保留在训练集中。
- 扩展(Expansion):对于基础模型表现不佳的文本提示,VLM生成更多变体,然后由先进模型生成对应图像,扩展训练集。
- 删除(Deletion):移除基础模型与先进模型表现相当的文本提示,以节约训练资源。
- 变异(Mutation):随机生成全新的文本提示,鼓励模型探索更广泛的文本域。
- 在线学习:EvolveDirector作为一个在线训练框架,基础模型持续训练,而VLM评估和数据集更新并行进行,提高了训练的实时性和适应性。
- 稳定性训练:通过在多头交叉注意力模块的查询(Q)和键(K)投影后加入层归一化,提高训练的稳定性,避免生成崩溃。
- 多尺度训练:基础模型最初在固定分辨率的图像上训练,然后扩展到更高分辨率和多比例的图像,使模型能够生成多种尺寸和比例的图像。
- 效率优化:通过最小化数据冗余和最大化数据质量,减少所需训练数据量,降低训练成本,特别是API使用成本。
EvolveDirector应用场景
- 数字艺术创作:艺术家和设计师可以使用EvolveDirector生成独特的图像和艺术作品,加速创作过程并探索新的视觉风格。
- 广告和营销:营销团队可以利用EvolveDirector快速生成吸引人的广告图像和营销材料,以适应不同的广告尺寸和格式。
- 游戏和娱乐:游戏开发者可以使用该框架创建游戏资产和环境,提高游戏设计的效率和多样性。
- 教育和培训:在教育领域,EvolveDirector可以用于生成教学材料中的插图和图像,帮助学生更好地理解和吸收知识。
- 社交媒体内容:内容创作者可以利用EvolveDirector为社交媒体平台生成引人入胜的图像和视觉内容,增加用户互动和参与度。
- 虚拟试穿和时尚设计:时尚行业可以应用EvolveDirector来生成服装的虚拟试穿效果,为消费者提供更加真实的预览体验。
EvolveDirector项目入口
- GitHub代码库:https://github.com/showlab/EvolveDirector
- HuggingFace模型:https://huggingface.co/ruizhaocv/Edgen
- arXiv技术论文:https://arxiv.org/pdf/2410.07133
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...