UNO:字节跳动推出的新型图像生成模型
UNO简介
UNO是由字节跳动推出的新型图像生成模型。它通过“少到多”的泛化方法,利用上下文生成能力解锁了更多的可控性,能够实现从单主体到多主体的高一致性图像生成。UNO模型通过渐进式跨模态对齐和通用旋转位置嵌入(UnoPE)技术,有效提升了主体相似性和文本可控性。其训练数据采用系统化的合成数据策划框架生成,确保了数据的高质量和多样性。在多种实验中,UNO展现了卓越的性能,不仅在单主体和多主体驱动生成任务中取得了优异的定量指标,还在虚拟试穿、身份保持、风格化生成等应用场景中表现出强大的泛化能力。

UNO主要功能
-
单主体和多主体图像生成:UNO能够根据文本提示和参考图像生成高质量的单主体或多个主体的图像,满足多样化的定制化需求。
-
高一致性生成:通过系统化的数据合成和模型训练,UNO在生成图像时能够保持主体的一致性,即使在复杂的多主体场景中也能准确呈现各个主体的特征。
-
文本可控性:用户可以通过文本提示精确控制生成图像的内容,包括主体的外观、场景、动作等,实现高度的定制化。
-
泛化能力:UNO在多种应用场景中表现出色,如虚拟试穿、身份保持、风格化生成等,即使在训练数据覆盖较少的情况下也能生成高质量的结果。
-
高分辨率图像生成:UNO支持生成高分辨率的图像(如1024×1024、1024×768、768×1024),满足不同应用场景对图像质量的要求。
UNO技术原理
-
模型-数据共同进化范式:UNO采用模型和数据共同进化的策略,通过较少可控的模型系统地合成更好的定制化数据,为后续更可控的模型变体提供支持,实现模型和数据之间的持续共同进化。
-
渐进式跨模态对齐:UNO通过渐进式训练从文本到图像模型逐步发展为多图像条件下的主体到图像模型。训练分为两个阶段:第一阶段使用单图像输入训练模型以掌握主体到图像的能力;第二阶段在多主体数据对上进一步训练,提升模型对复杂场景的处理能力。
-
通用旋转位置嵌入(UnoPE):为解决多图像条件下位置编码问题,UNO引入了通用旋转位置嵌入。通过调整位置索引,防止模型过度依赖参考图像的空间结构,使其专注于从文本特征中获取布局信息,从而在保持良好文本可控性的同时提高主体相似性。
-
高质量合成数据生成:UNO的数据合成框架从单主体到多主体逐步扩展,利用扩散变换器的上下文生成能力生成高分辨率、高质量的配对定制化数据。通过多阶段过滤机制,结合视觉语言模型(VLM)进行精细评估,确保生成数据的质量和一致性。
-
基于扩散变换器(DiT)的架构:UNO基于DiT架构,利用其强大的生成能力和多模态注意力机制,实现从文本和图像输入到目标图像的高效生成。通过迭代训练和最小的架构修改,UNO保留了基础模型的可扩展性,同时提升了多条件控制能力。
UNO应用场景
-
虚拟试穿:用户可以上传自己的照片或选择虚拟模特,通过文本描述试穿不同的服装、配饰等,实时查看效果,为在线购物提供更直观的体验。
-
产品设计:设计师可以利用UNO快速生成带有特定设计元素(如品牌标志、图案)的产品图像,用于概念验证和市场推广。
-
身份保持与个性化定制:在生成图像时保持特定人物或物体的身份特征,适用于创建个性化头像、虚拟角色等,满足用户对个性化内容的需求。
-
虚拟场景构建:根据文本描述生成包含多个主体的复杂场景,如虚拟展览、电影场景等,为影视制作、游戏开发等提供创意素材。
-
风格化生成:将输入图像转换为特定的艺术风格(如漫画风格、Ghibli风格等),为内容创作者提供多样化的视觉效果,丰富创作形式。
-
故事生成:根据文本故事生成与情节相匹配的图像,帮助作家、教育工作者等更生动地呈现故事内容,增强故事的吸引力和感染力。
UNO项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...