DisEnvisioner:根据用户提供的视觉提示和文本指令生成个性化的图像
DisEnvisioner简介
DisEnvisioner是由香港科技大学(广州)和诺亚方舟实验室联合开发的一种创新图像生成模型,它通过分离和丰富视觉提示中的主体本质特征,有效过滤掉无关信息,从而在无需繁琐调整或依赖多张参考图像的情况下,实现卓越的定制化图像生成。这种方法不仅提高了图像的编辑性和身份一致性,还加快了推理速度,展现了在个性化图像生成领域的显著优势。
DisEnvisioner主要功能
- 自定义图像生成:根据用户提供的视觉提示和文本指令生成个性化的图像。
- 主体特征提取:准确识别并提取参考图像中的主体本质特征。
- 无关信息过滤:在生成过程中过滤掉与主体无关的属性,避免干扰。
- 单图像操作:仅使用一张参考图像即可实现高质量的个性化图像生成。
- 无需调整:无需对模型进行繁琐的调整或微调,即可直接用于生成。
- 增强ID一致性:确保生成的图像在身份上与参考图像保持高度一致性。
- 快速推理:提供快速的图像生成速度,提高效率。
DisEnvisioner技术原理
- 特征分离(DisVisioner):通过图像标记化技术将图像特征分离成主体相关和无关的标记,实现特征的独立表示。
- 特征丰富(EnVisioner):将分离的主体特征进一步细化,增强特征的颗粒度,提升生成图像的ID一致性。
- 视觉标记(Visual Tokens):利用视觉标记来紧凑地表示图像特征,每个标记对应一个独特的视觉组件。
- 空间注意力机制:采用空间注意力机制对图像特征进行聚合,确保特征的独立性和正交性。
- 双阶段训练:DisEnvisioner采用两阶段训练流程,先进行特征分离,再进行特征丰富,以实现更准确的定制化。
- 跨注意力模块:在生成过程中使用跨注意力模块来引入文本条件,增强模型对文本指令的响应能力。
- 高效编码:通过压缩主体特征到紧凑的标记中,减少不必要的特征竞争,提高编码效率和准确性。
- 灵活的生成控制:通过调整与主体相关和无关特征的权重(λs和λi),灵活控制生成过程中相关信息的整合。
DisEnvisioner应用场景
- 个性化商品设计:为顾客提供定制化的产品设计图,如T恤印花、手机壳图案等,根据用户喜好生成独一无二的设计。
- 虚拟试衣间:在线上购物平台中,根据用户上传的图片生成试穿不同服饰的效果,提升购物体验。
- 游戏角色定制:在电子游戏中,允许玩家基于自己的形象或偏好创建独特的角色外观。
- 广告和营销材料:根据品牌特定的视觉风格和营销文案,快速生成符合品牌形象的广告图像。
- 艺术创作辅助:辅助艺术家和设计师在创作过程中,通过文本描述快速生成草图和概念图。
- 社交媒体内容生成:用户可以通过简单的文本描述,在社交媒体上生成和分享个性化的图片内容。
DisEnvisioner项目入口
- 项目主页:https://disenvisioner.github.io/
- arXiv研究论文:https://arxiv.org/pdf/2410.02067
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...