WeGen：中国科学技术大学等推出的多模态生成模型

0 80

WeGen简介

WeGen是由中国科学技术大学、上海交通大学、腾讯微信团队、中国科学院以及Galbot等机构联合开发的统一多模态生成模型。它通过整合多模态理解和生成能力，为用户提供了一个自然对话式的交互界面，能够完成文本到图像生成、图像编辑、风格转换等多种视觉任务。WeGen的核心优势在于其强大的创意生成能力和对用户指令及参考图像一致性的保持。开发团队通过创新的动态实例身份一致性（DIIC）数据管道和提示自我重写（PSR）机制，解决了现有模型在生成多样性和实例一致性方面的不足，使其在多项视觉生成基准测试中达到国际领先水平，展现出作为用户友好型设计辅助工具的巨大潜力。

WeGen主要功能

多模态交互与生成：WeGen能够通过自然对话与用户互动，理解用户的指令并生成高质量的视觉内容，包括文本到图像生成、图像编辑、风格转换、条件生成等。
实例身份一致性保持：在生成过程中，WeGen可以保留用户指定的实例特征（如人物、物体等），同时允许其他部分自然变化，确保生成结果与用户需求一致。
生成多样性：WeGen能够根据同一指令生成多样化的结果，为用户提供更多创意选择，满足不同场景的需求。
多任务支持：WeGen整合了多种视觉生成任务，包括但不限于文本到图像生成、图像编辑、风格迁移、超分辨率、修复、条件生成等，支持用户通过单一模型完成多种任务。
用户友好的设计辅助：WeGen通过自然语言交互界面，降低了视觉生成工具的使用门槛，使普通用户也能轻松实现复杂的视觉设计目标。

WeGen技术原理

多模态大语言模型（MLLM）与扩散模型结合：WeGen基于CLIP编码器、大型语言模型（LLM）和扩散模型（如SDXL）构建，通过MLLM实现自然语言交互，利用扩散模型生成高质量的视觉内容。
动态实例身份一致性（DIIC）数据管道：WeGen通过视频序列中的实例跟踪和自然变化捕捉，构建DIIC数据管道，学习在保持实例身份一致性的同时引入自然变化，解决现有模型在身份保持方面的不足。
提示自我重写（PSR）机制：WeGen引入PSR机制，在生成图像之前对文本提示进行重写，通过随机采样引入多样性，同时保持语义一致性，增强生成结果的多样性。
自回归视觉特征建模：WeGen采用自回归方法生成视觉特征，通过逐步建模特征之间的依赖关系，提高生成图像的整体连贯性和质量。
大规模数据驱动的训练：WeGen利用大规模互联网视频和图像数据进行训练，结合先进的基础模型自动生成标注，提升模型对复杂场景和多样化的理解与生成能力。
两阶段训练流程：WeGen采用两阶段训练：首先训练扩散模型以重建图像，然后在冻结CLIP和扩散模型权重的情况下，对语言模型进行微调，以实现多模态任务的统一建模。