Kolors（可图大模型）：快手最新开源的AI绘画模型

0 100

Kolors简介

Kolors（可图大模型）是快手发布的一款文本到图像合成扩散开源模型，它基于通用语言模型（GLM）构建，具备出色的双语理解和生成能力。Kolors通过两阶段训练策略，专注于概念学习和质量提升，优化了高分辨率图像的生成。它在视觉吸引力方面表现卓越，尤其在中文文本渲染上具有明显优势。Kolors的代码和模型权重已公开，旨在推动视觉生成领域的研究和应用。

AI绘画

Kolors主要功能

❶双语文本理解：Kolors能够理解并处理英语和中文文本，增强了对两种语言的语义理解能力。
❷高保真图像生成：模型能够生成具有高度逼真感的图像，适应多种风格和分辨率。
❸概念与质量并重的训练：通过两阶段训练，先学习基本概念，再提升图像质量，优化了高分辨率图像的生成。
❹类别平衡的评估基准：引入了KolorsPrompts，一个平衡不同类别的评估基准，用于模型训练和测试。
❺开源代码和模型权重：Kolors的代码和权重公开，便于研究者和开发者使用和进一步开发。

Kolors技术原理

基于GLM的文本编码器：使用通用语言模型（GLM）作为文本编码器，提升了对复杂语义的理解能力。
多模态大型语言模型（MLLM）：利用MLLM重新标注训练数据集，增强了模型对文本的细粒度理解。
两阶段训练策略：
- 概念学习阶段：使用广泛的知识库进行训练，使模型掌握基本的视觉概念。
- 质量提升阶段：使用精心策划的高审美数据，专注于提升图像的细节和美学质量。
噪声计划优化：研究了噪声计划在高分辨率图像生成中的关键作用，并引入了新的计划以优化生成过程。
高分辨率训练方法：通过扩展噪声步骤和调整β值，保持了信号与噪声的比例，提高了高分辨率图像的生成质量。
数据合成与真实世界数据结合：通过数据合成构建训练集，并结合真实世界图像和文本，增强了模型对中文文本渲染的能力。
人类评估与自动评估：结合人类评估和自动评估指标（如MPS和FID），全面评估模型性能。

AI绘画

Kolors应用场景

❶ 数字艺术创作：为独立艺术家和设计师提供灵感，创作独特的数字艺术作品。
❷虚拟产品展示：在电子商务平台上，为顾客展示产品在不同环境下的逼真效果。
❸教育可视化：将抽象概念转化为直观图像，增强学习体验。
❹游戏资产生成：快速生成游戏内角色、场景和界面元素的原型设计。
❺动画预制：为动画制作提供初步的视觉概念和故事板。
❻时尚设计模拟：展示服装设计在不同体型和背景下的外观。
❼建筑视觉效果：为建筑师和客户提供建筑和室内设计的逼真渲染图。
❽个性化营销材料：定制化生成营销海报、传单和社交媒体图像。
❾虚拟角色开发：在虚拟现实和增强现实中创建虚拟角色和互动体验。