DreamO:字节联合北大推出的统一图像定制框架
DreamO项目简介
DreamO是由字节跳动智能创作团队与北京大学电子与计算机工程学院联合开发的统一图像定制框架。它基于扩散变换器(DiT)架构,通过大规模训练数据和特征路由约束,实现了多种图像定制任务的高质量生成,包括身份、主体、风格和试穿等。DreamO的核心优势在于其强大的多条件整合能力,能够在单个模型中灵活处理多种控制信号,并通过渐进式训练策略优化性能。该框架不仅在实验中展现出对复杂场景的适应性,还具备高效部署的特点,为图像生成领域提供了一种创新的解决方案。

DreamO主要功能
-
身份驱动图像生成:能够根据输入的身份特征(如人脸)生成图像,并支持多个人物身份的融合,同时允许用户通过文本描述精确控制场景和其他细节。
-
主体驱动图像定制:支持单主体或多主体的条件输入,可以将不同的视觉元素整合到一个统一的输出中,保持语义一致性。
-
试穿图像定制:可以实现特定身份的虚拟试穿,或者对任意主体进行创意性的服装应用,重新诠释服装及其特征。
-
风格驱动图像定制:通过参考图像控制生成图像的风格,同时支持通过文本或图像输入控制其他属性,实现细粒度的多模态操作。
-
多条件整合:能够在单个模型中灵活处理多种控制条件(如身份、主体、风格等),并实现它们之间的有效解耦和交互。
DreamO技术原理
-
扩散变换器(DiT)架构:采用扩散变换器作为核心框架,将图像和文本输入统一处理为序列化数据,通过扩散模型的去噪过程生成高质量图像。
-
特征路由约束:通过计算条件图像与生成结果之间的交叉注意力图,并对其全局响应进行约束,使得模型能够将注意力集中在特定目标上,从而增强生成保真度并促进多条件场景下的解耦。
-
占位符策略:在文本提示中引入占位符(如[ref#1]),并在训练过程中计算条件图像标记与占位符标记之间的相似性,确保它们之间的正确匹配,从而实现对生成结果中条件放置的控制。
-
渐进式训练策略:采用分阶段训练方法,包括初始阶段(简单任务训练)、全面训练阶段(多任务综合训练)和质量对齐阶段(纠正低质量数据的影响),使模型能够逐步学习多种任务能力,同时保持高质量的生成效果。
-
大规模训练数据集:构建了一个包含多种定制化任务的大规模训练数据集,涵盖身份、主体、试穿和风格等多种任务,以支持模型的多任务学习和泛化能力。
DreamO应用场景
-
虚拟试衣:用户可以上传自己的照片和喜欢的服装图片,DreamO能够生成用户试穿该服装的效果图,帮助用户在购买前预览穿着效果。
-
个性化头像生成:根据用户提供的照片或描述,生成符合用户身份特征的个性化头像,适用于社交媒体、游戏等场景。
-
风格转换:将一张图片的风格转换为另一种风格,例如将普通照片转换为油画风格或动漫风格,满足用户对艺术创作的需求。
-
虚拟场景构建:结合用户提供的主体和场景描述,生成特定场景下的图像,例如将人物放置到虚拟的公园、海滩或未来城市中。
-
创意服装设计:设计师可以利用DreamO将服装设计草图与模特图片结合,快速生成不同风格的服装效果图,加速设计流程。
-
广告与营销:生成符合品牌形象和风格的广告图像,例如将产品与特定场景或人物结合,提升广告的吸引力和相关性。
DreamO项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...