DisEnvisioner：根据用户提供的视觉提示和文本指令生成个性化的图像

3-2.图片生成模型3周前更新 AI-77

0 20

DisEnvisioner简介

DisEnvisioner是由香港科技大学（广州）和诺亚方舟实验室联合开发的一种创新图像生成模型，它通过分离和丰富视觉提示中的主体本质特征，有效过滤掉无关信息，从而在无需繁琐调整或依赖多张参考图像的情况下，实现卓越的定制化图像生成。这种方法不仅提高了图像的编辑性和身份一致性，还加快了推理速度，展现了在个性化图像生成领域的显著优势。

DisEnvisioner：根据用户提供的视觉提示和文本指令生成个性化的图像

DisEnvisioner主要功能

自定义图像生成：根据用户提供的视觉提示和文本指令生成个性化的图像。
主体特征提取：准确识别并提取参考图像中的主体本质特征。
无关信息过滤：在生成过程中过滤掉与主体无关的属性，避免干扰。
单图像操作：仅使用一张参考图像即可实现高质量的个性化图像生成。
无需调整：无需对模型进行繁琐的调整或微调，即可直接用于生成。
增强ID一致性：确保生成的图像在身份上与参考图像保持高度一致性。
快速推理：提供快速的图像生成速度，提高效率。

DisEnvisioner技术原理

特征分离（DisVisioner）：通过图像标记化技术将图像特征分离成主体相关和无关的标记，实现特征的独立表示。
特征丰富（EnVisioner）：将分离的主体特征进一步细化，增强特征的颗粒度，提升生成图像的ID一致性。
视觉标记（Visual Tokens）：利用视觉标记来紧凑地表示图像特征，每个标记对应一个独特的视觉组件。
空间注意力机制：采用空间注意力机制对图像特征进行聚合，确保特征的独立性和正交性。
双阶段训练：DisEnvisioner采用两阶段训练流程，先进行特征分离，再进行特征丰富，以实现更准确的定制化。
跨注意力模块：在生成过程中使用跨注意力模块来引入文本条件，增强模型对文本指令的响应能力。
高效编码：通过压缩主体特征到紧凑的标记中，减少不必要的特征竞争，提高编码效率和准确性。
灵活的生成控制：通过调整与主体相关和无关特征的权重（λs和λi），灵活控制生成过程中相关信息的整合。

DisEnvisioner应用场景

个性化商品设计：为顾客提供定制化的产品设计图，如T恤印花、手机壳图案等，根据用户喜好生成独一无二的设计。
虚拟试衣间：在线上购物平台中，根据用户上传的图片生成试穿不同服饰的效果，提升购物体验。
游戏角色定制：在电子游戏中，允许玩家基于自己的形象或偏好创建独特的角色外观。
广告和营销材料：根据品牌特定的视觉风格和营销文案，快速生成符合品牌形象的广告图像。
艺术创作辅助：辅助艺术家和设计师在创作过程中，通过文本描述快速生成草图和概念图。
社交媒体内容生成：用户可以通过简单的文本描述，在社交媒体上生成和分享个性化的图片内容。

DisEnvisioner项目入口

项目主页：https://disenvisioner.github.io/
arXiv研究论文：https://arxiv.org/pdf/2410.02067

# 3-2.图片生成模型 # 3.AI大模型数据库 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

DepthLab：专门设计用于从单一图像中生成完整的3D场景

AI-77cn

80

Fooocus：一个免费且开源的文本到图像生成工具，类似SD和MJ

AI-77cn

30

ChatAnyone：阿里通义推出的实时肖像视频生成框架

AI-77cn

100

OmniBooth：华为联合香港科技大学推出的图像生成框架

AI-77cn

90

AVD2：增强自动驾驶系统对复杂交通事故场景的理解能力

AI-77cn

100

AutoStudio：多轮交互中的主题一致性图像生成框架

AI-77cn

40

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号