DianJin-R1：阿里云通义点金联合苏大开发的推理增强框架

0 80

DianJin-R1项目简介

DianJin-R1是由阿里巴巴云计算团队和苏州大学联合开发的推理增强框架，旨在提升大型语言模型（LLMs）在金融领域的推理能力。该框架通过推理增强监督和强化学习，结合高质量数据集DianJin-R1Data，显著提高了模型在金融任务中的表现。DianJin-R1Data整合了CFLUE、FinQA和专有的中文合规检查（CCC）数据集，覆盖多种金融推理场景。基于此数据集，团队开发了DianJin-R1-7B和DianJin-R1-32B两个模型，通过结构化输出格式进行微调，并采用组相对策略优化（GRPO）强化学习方法进一步提升推理质量。实验表明，DianJin-R1模型在多个金融和通用推理基准测试中表现优异，尤其在复杂金融任务上优于非推理模型，为金融领域的实际应用提供了高效且可扩展的解决方案。

DianJin-R1主要功能

提升金融领域推理能力：
- 专门针对金融任务设计，能够处理复杂的金融问题，包括数值计算、合规性检查和多步逻辑推理。
- 通过生成详细的推理路径和最终答案，提供可解释的解决方案，增强模型的透明性和可信度。
高效推理与低计算成本：
- 在复杂的合规性检查任务中，单次调用推理模型的性能可媲美甚至超过多智能体系统，显著降低了计算成本。
- 提供可扩展的解决方案，适用于大规模实际应用。
跨领域推理能力：
- 除了金融领域，DianJin-R1在通用推理任务（如数学问题解答）上也表现出色，具有一定的泛化能力。

DianJin-R1技术原理

推理增强监督学习（SFT）：
- 使用高质量的数据集DianJin-R1Data进行微调，该数据集结合了CFLUE、FinQA和CCC等多种金融推理场景。
- 数据集中的每个样本都包含问题、推理路径和最终答案，模型通过学习这些结构化的输出，生成连贯的推理步骤和准确的答案。
强化学习优化（RL）：
- 采用组相对策略优化（GRPO）算法，结合两种奖励机制：
  - 格式奖励：确保模型生成的输出符合结构化要求（如包含推理段和答案段）。
  - 准确性奖励：鼓励模型生成与参考答案一致的最终答案，提升推理的准确性。
- 通过强化学习进一步优化模型的推理能力，尤其是在处理复杂任务时。
多智能体系统辅助数据生成：
- 对于复杂的合规性检查任务（如CCC数据集），通过模拟人类专家的推理流程，使用多智能体系统生成推理路径。
- 每个智能体负责处理特定的条件节点，生成中间推理步骤，最终整合为完整的推理路径。
高质量数据集构建：
- 对开源数据集（如CFLUE和FinQA）进行筛选和优化，确保数据的质量和复杂性。
- 使用GPT-4o等先进模型对生成的推理路径和答案进行验证，确保数据的准确性和一致性。