Granite 3.2：IBM 开源的多模态系列 AI 模型

0 90

Granite 3.2 简介

Granite 3.2 是由 IBM 开发的开源多模态 AI 模型系列，旨在为企业提供高效、实用的 AI 解决方案。该系列由 IBM 的技术团队开发，包含多个版本，如 Granite 3.2 Instruct（支持推理功能）、Granite Vision 3.2（多模态视觉模型）和 Granite Guardian 3.2（安全防护模型）。其中，Granite 3.2 Instruct 提供实验性链式推理能力，可在需要时开启或关闭，以优化计算资源。Granite Vision 3.2 专注于文档理解，性能可媲美更大规模的模型。所有模型均采用 Apache 2.0 开源许可证，可在 Hugging Face 等平台获取。

Granite 3.2 主要功能

推理能力：Granite 3.2 提供了强大的推理功能，能够逐步思考复杂问题，从而更好地执行复杂指令。这种推理能力可以根据需要开启或关闭，避免不必要的计算资源浪费。在数学和逻辑推理任务中，它甚至可以与更大规模的模型相媲美。
多模态理解：Granite Vision 3.2 是一个专注于文档理解的多模态模型，能够同时处理图像和文本输入。它特别擅长处理文档中的布局、图表和字体等视觉元素，性能与比其大五倍的模型相当。
安全监控：Granite Guardian 3.2 是一款用于风险检测的安全模型，能够监控输入和输出中的潜在风险。它引入了“置信度评估”功能，可以更细致地评估风险，而不仅仅是简单的“是”或“否”。
时间序列预测：Granite 时间序列模型（如 TTM-R2.1）新增了长期预测能力，支持日度和周度预测。它通过频率前缀调整技术快速适应不同频率的数据，适用于金融分析和供应链预测等场景。
稀疏嵌入：Granite 3.2 引入了稀疏嵌入模型，适用于短文本检索和匹配任务。与传统的密集嵌入相比，稀疏嵌入更易于解释，且在某些任务中性能更优。

Granite 3.2 技术原理

链式推理：通过“逐步思考”的提示技术，模型在逻辑推理任务中表现大幅提升。推理过程可以通过简单的开关控制，避免在不需要推理时浪费计算资源。
多模态融合：基于 Transformer 架构，Granite Vision 3.2 能够同时处理视觉和文本输入。它使用专门的文档理解数据集进行训练，优化了对文档和图表的理解能力。
推理扩展技术：在推理阶段增加计算资源，而不是单纯扩大模型规模，从而提升推理性能。通过强化学习优化模型的“思考过程”，使其在数学推理等任务中表现出色。
稀疏嵌入：与传统的密集嵌入不同，稀疏嵌入的每个维度直接对应词汇表中的一个词，使得模型的输出更易于理解。
安全监控与置信度评估：使用强化学习优化风险检测能力，并引入“置信度评估”功能，提供更细致的风险评估。同时，通过模型剪枝和优化，降低了推理成本和内存占用。