Inf-DiT:清华联合智谱 AI推出的高分辨率图像上采样模型

Inf-DiT简介

Inf-DiT是由清华大学与智谱 AI共同开发的一种创新图像上采样模型,它通过引入单向块注意力机制(UniBA)显著降低了在生成超高分辨率图像过程中的内存消耗,从而突破了传统模型在图像分辨率上的限制。该模型能够处理各种形状和分辨率的图像,实现在保持内存效率的同时生成细节丰富、语义一致的超高分辨率图像,达到了当前技术的最新水平。

Inf-DiT:清华联合智谱 AI推出的高分辨率图像上采样模型

Inf-DiT主要功能

  1. 超高分辨率图像生成: Inf-DiT能够将低分辨率图像上采样到4096×4096等超高分辨率,满足设计、广告、海报和壁纸制作等实际应用需求。
  2. 任意分辨率图像上采样: 模型支持对不同形状和分辨率的图像进行上采样,具有很好的适应性和灵活性。
  3. 内存效率优化: 相比传统UNet结构,Inf-DiT在生成4096×4096像素图像时可以节省超过5倍的内存,提高了模型的实用性。
  4. 全局和局部一致性增强: 通过引入CLIP图像嵌入和邻近低分辨率块的交叉注意力机制,增强了图像的全局语义一致性和局部细节连续性。

Inf-DiT技术原理

  1. 单向块注意力机制(UniBA): 通过将图像分割成块,并在这些块之间进行顺序批量生成,减少了同时需要保持在内存中的隐藏状态数量,从而降低了空间复杂度。
  2. 基于DiT结构的优化: Inf-DiT采用Diffusion Transformer(DiT)作为基础架构,并对其进行优化,以适应单向块注意力机制,并增强上采样性能。
  3. 全局图像嵌入: 利用预训练的CLIP模型提取低分辨率图像的全局语义信息,并将其嵌入到扩散变换器的每一层中,使模型能够直接从高级语义信息中学习。
  4. 零样本文本控制能力: 通过CLIP的图像-文本潜在空间对齐,即使模型没有在图像-文本对上进行训练,也能够使用文本提示来指导图像生成的方向。
  5. 局部一致性增强: 通过在变换器的第一层对周围的3×3低分辨率块进行交叉注意力操作,捕获邻近的低分辨率信息,减少生成不连续图像的概率。
  6. 高效的推理过程: Inf-DiT在推理过程中,仅存储必要的块KV缓存,通过生成n×n大小的块,并在生成后丢弃不再使用的隐藏状态,有效控制内存使用。
  7. 迭代上采样能力: Inf-DiT能够对自身生成的图像进行多次迭代上采样,逐步提高图像的分辨率和细节。

Inf-DiT应用场景

  1. 精细设计项目:设计师可以使用Inf-DiT将草图或概念图上采样成高分辨率的详细设计图,用于打印或数字展示。
  2. 广告制作:广告行业可以利用Inf-DiT生成高分辨率的广告图像,以适应不同媒介和广告牌的尺寸需求。
  3. 海报印刷:将低分辨率的海报设计稿上采样成适合打印的高分辨率版本,确保打印出来的海报清晰、细节丰富。
  4. 壁纸创作:艺术家和设计师可以创作低分辨率的壁纸草图,然后使用Inf-DiT上采样成适合不同设备屏幕的高分辨率壁纸。
  5. 摄影后期处理:摄影师可以使用Inf-DiT对拍摄的照片进行超分辨率处理,增强照片细节,以满足大幅面打印的需求。
  6. 影视后期制作:在影视制作中,Inf-DiT可以用于提升老旧影片的分辨率,或者为高清晰度播放制作高质量的图像素材。

Inf-DiT项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...