StarVector：用于将图像和文本转换为可缩放矢量图形

0 30

StarVector简介

StarVector是一种多模态大型语言模型（MLLM），专门用于将图像和文本转换为可缩放矢量图形（SVG）代码。它通过理解图像的语义内容，并利用SVG原语（如椭圆、多边形和文本）来生成精确且紧凑的矢量图形，从而解决了传统矢量化方法在语义理解和SVG原语使用上的不足。StarVector在大规模的SVG-Stack数据集上进行训练，并在SVG-Bench基准测试中表现出色，尤其在图像到SVG和文本到SVG的任务上，生成的SVG不仅视觉质量高，而且语义丰富。此外，StarVector还引入了DinoScore等新度量标准，以更准确地评估SVG生成的质量。

StarVector主要功能

图像矢量化：
- 将光栅图像（如图标、字体、图表等）转换为SVG格式的矢量图形。
- 生成的SVG图形具有更高的可缩放性和编辑性，同时保持图像的语义信息。
文本到SVG生成：
- 根据文本描述生成SVG图形。
- 支持从简单的图标到复杂的图表的生成，能够理解文本中的语义信息并转化为视觉图形。
SVG代码生成与优化：
- 直接生成SVG代码，而不是通过像素级的重建。
- 有效利用SVG原语（如椭圆、多边形、文本等），生成紧凑且语义丰富的SVG文件。
多模态输入支持：
- 支持从图像和文本两种输入方式生成SVG，提供更灵活的使用场景。
高质量矢量图形生成：
- 生成的SVG图形在视觉质量上优于传统方法，尤其是在处理复杂图形和文本时。
- 通过DinoScore等感知相似性度量，确保生成图形与输入图像或文本的高度一致性。

StarVector技术原理

多模态架构：
- 结合了图像编码器和大型语言模型（LLM），能够处理图像和文本输入。
- 图像编码器将输入图像转换为视觉令牌（visual tokens），与LLM的隐藏空间对齐，使模型能够理解和处理图像内容。
逆渲染和代码生成：
- 将图像矢量化任务视为逆渲染问题，将图像转换为SVG代码。
- 模型通过学习图像和SVG代码之间的映射关系，直接生成SVG代码，而不是通过像素级重建。
SVG原语利用：
- 模型通过语义理解，识别并使用SVG原语（如椭圆、多边形、文本等），而不是仅仅依赖于路径（path）原语。
- 这种方法生成的SVG文件更加紧凑，同时保留了更多的语义信息。
大规模数据集训练：
- 使用大规模的SVG-Stack数据集进行训练，该数据集包含超过200万的SVG样本，涵盖了多种SVG类型和原语。
- 数据集的多样性和规模使得模型能够泛化到不同的矢量化任务。
感知相似性度量：
- 引入DinoScore等感知相似性度量，用于评估生成SVG的质量。
- 这些度量能够更好地反映人类对视觉质量的感知，弥补了传统像素级度量（如MSE）的不足。
高效的生成策略：
- 采用核采样（nucleus sampling）等技术，结合温度参数调整，优化生成过程。
- 通过生成多个样本并选择最佳结果，提高生成SVG的质量和稳定性。
灵活的上下文长度：提供不同版本的模型（如StarVector-1B和StarVector-8B），分别支持8k和16k的上下文长度，以适应不同复杂度的SVG生成任务。