DREAM ENGINE:根据语言描述和多张参考图像生成高质量的图像
DREAM ENGINE简介
DREAM ENGINE是由北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和Binance Labs联合开发的创新图像生成框架。该框架通过结合大型多模态模型(LMM)和先进的扩散模型,实现了复杂的文本-图像交错控制,能够根据自然语言描述和多张参考图像生成高质量的图像。开发团队提出了一种两阶段训练范式,通过轻量级适配器对齐LMM和扩散模型的表示空间,从而在图像生成中实现高度定制化的输出。DREAM ENGINE在GenEval基准测试中取得了接近顶尖模型的性能,并在图文交错控制任务中展现出卓越的能力,为创意图像生成开辟了新的可能性。

DREAM ENGINE主要功能
-
任意文本-图像交错控制:能够根据复杂的自然语言描述和多张参考图像生成图像,支持将多个图像的视觉元素合并到一个输出图像中,实现高度定制化的视觉创作。
-
高质量图像生成:在保持与原始扩散模型相当的图像生成质量的同时,显著提升了对复杂指令的理解和执行能力。
-
自由形式图像编辑:支持对输入图像进行自由编辑,根据文本指令修改图像中的对象、背景或其他视觉元素。
-
对象驱动的特征混合:能够根据文本指令将不同图像的特征(如颜色、形状、纹理)融合到一个连贯的输出图像中,即使这些组合在训练数据中从未出现过。
-
图像重建与对齐:通过图像到图像的对齐任务,能够重建高质量的图像,同时保留输入图像的视觉特征。
DREAM ENGINE技术原理
-
多模态表示对齐:通过大型多模态模型(LMM)将文本和图像映射到一个统一的语义空间,使得模型能够同时理解文本和图像的语义信息,并将其作为条件输入扩散模型。
-
两阶段训练范式:
-
第一阶段:联合文本-图像对齐,通过高质量的图像-标题对训练适配器层,对齐LMM和扩散模型(DiT)的表示空间。
-
第二阶段:多模态交错指令微调,通过自由形式图像编辑和对象驱动生成任务,进一步优化模型对复杂图文指令的理解和执行能力。
-
-
轻量级适配器设计:通过一个简单的两层MLP适配器,将LMM的输出隐藏状态映射到扩散模型的条件特征空间,避免了复杂的架构修改。
-
视觉特征混合机制:通过在LMM中引入视觉特征的加权混合,控制输入图像和输出图像之间的视觉一致性,支持灵活调整视觉信息的保留程度。
-
扩散模型的增强:基于强大的扩散模型(如Stable Diffusion v3.5),通过替换原始文本编码器,引入多功能的多模态信息编码器,从而提升模型对复杂图文交错指令的理解和生成能力。
DREAM ENGINE应用场景
-
创意艺术设计:根据艺术家的描述和参考图像,生成独特的艺术作品,支持风格融合和视觉元素的自由组合。
-
广告与营销:快速生成符合品牌风格和营销主题的图像,结合产品图片和创意文案,实现个性化视觉内容创作。
-
游戏开发:根据游戏设定和概念图,生成游戏场景、角色或道具,加速游戏美术资源的创作流程。
-
影视制作:根据剧本描述和场景参考图,生成概念图或预览图,辅助影视前期设计和视觉开发。
-
教育与培训:根据教学内容和示例图像,生成教学辅助图像,帮助学生更好地理解和记忆知识。
-
产品设计与原型制作:结合设计草图和功能描述,生成产品原型图,帮助设计师快速验证和优化设计方案。
DREAM ENGINE项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...