Fin-R1：通过强化学习驱动的金融推理大模型

0 30

Fin-R1简介

Fin-R1是由上海财经大学、复旦大学和财跃星辰团队联合开发的一款专为金融推理设计的大型语言模型。该模型通过强化学习提升推理能力，有效解决了金融数据碎片化、推理逻辑不可控和业务泛化能力弱等问题。开发团队构建了高质量的Fin-R1-Data数据集，并采用监督微调（SFT）与组相对策略优化（GRPO）的两阶段训练框架，使模型在金融推理任务中表现出色。Fin-R1在多个金融基准测试中取得了优异成绩，尤其在ConvFinQA和FinQA任务中分别达到85.0和76.0的高分，展现出强大的推理和决策能力，为金融AI应用提供了高效解决方案。

Fin-R1主要功能

金融推理与决策：Fin-R1能够处理复杂的金融推理任务，如金融数据的数值推理、金融新闻情感分类、因果关系提取等，为金融决策提供准确、可解释的依据。
自动化金融业务流程：在金融合规检查、机器人投顾等实际应用中表现出色，可自动化执行金融业务流程，提高效率并降低人工成本。
多语言支持：支持中文和英文的金融领域推理，覆盖多种金融业务场景，满足不同语言环境下的金融推理需求。
高效资源利用：以7亿参数的轻量化结构实现高性能，显著降低了部署成本，使其更适合在资源受限的环境中使用。

Fin-R1技术原理

高质量数据集构建：
- 通过数据蒸馏和筛选，从多个权威金融数据集中提取约60,091条完整的思维链（CoT），构建了高质量的Fin-R1-Data数据集。
- 数据集涵盖金融专业知识、金融业务知识（推理与非推理）以及金融代码生成等多个维度，确保模型在不同金融场景下的适用性。
两阶段训练框架：
- 监督微调（SFT）：利用高质量的金融推理数据集对模型进行监督微调，使模型学习结构化的金融推理模式，生成准确的答案和推理轨迹。
- 强化学习（RL）：采用组相对策略优化（GRPO）算法，通过金融问答数据和双重奖励机制（格式奖励和内容奖励）进一步优化模型输出，提高回答的准确性和格式规范性。
推理逻辑优化：
- 在数据筛选阶段，使用Qwen2.5-72B-Instruct作为判断模型，评估模型生成的推理轨迹的质量，确保推理逻辑的内部一致性、逻辑连贯性和任务相关性等。
- 强化学习阶段通过奖励机制引导模型生成符合金融领域规范的推理过程，提升模型的可解释性和透明度。
多任务学习与泛化能力：
- 通过在多个金融基准数据集上进行训练和评估，使模型具备跨任务的泛化能力，能够适应不同类型的金融推理任务。
- 模型在未专门训练的任务上也表现出显著的性能提升，证明了其在金融领域的广泛适用性。