START：阿里联合中科大推出的长链推理语言模型

0 40

START简介

START（Self-Taught Reasoner with Tools）是由中国科学技术大学和阿里巴巴集团联合开发的一种新型长链推理语言模型。它通过整合外部工具（尤其是Python解释器）显著提升了复杂推理任务的性能。开发团队提出了Hint-infer和Hint Rejection Sampling Fine-Tuning（HintRFT）两种创新技术，使模型能够在推理过程中动态调用工具，有效解决传统长链推理中可能出现的幻觉和计算不准确问题。在多个基准测试中，START展现出卓越的性能，尤其是在数学、科学和编程领域，其准确率显著优于现有模型，成为开源推理模型中的领先解决方案。这一成果不仅为复杂推理任务提供了新的思路，也为未来大型语言模型的发展树立了新的标杆。

START主要功能

复杂推理任务的高效解决：START能够处理复杂的科学问题、数学难题和编程挑战，通过长链推理（Long Chain-of-Thought, CoT）和工具调用（如Python解释器），显著提升推理的准确性和效率。
工具调用与自调试能力：模型可以动态调用外部工具（如Python代码执行器）进行复杂计算、自我验证和调试，从而避免推理过程中的幻觉和错误。
自我学习与优化：通过Hint-infer和HintRFT技术，START能够在推理过程中自动学习如何更有效地使用工具，进一步提升推理能力。
跨领域推理能力：在科学问答（如GPQA）、数学竞赛（如AMC、AIME）和编程基准测试（如LiveCodeBench）等多个领域表现出色，展现了强大的泛化能力。

START技术原理

长链推理（Long Chain-of-Thought, CoT）：
- 模拟人类的思考模式，将复杂问题分解为多个中间推理步骤，逐步逼近最终答案。
- 通过显式的中间推理步骤，模型能够进行自我反思、多策略探索和验证，提升复杂任务的解决能力。
工具调用与整合（Tool Integration）：
- 在推理过程中动态调用外部工具（如Python解释器），将复杂的数学计算、代码执行等任务外包给工具，避免模型内部推理的局限性。
- 通过工具调用，模型能够进行自我验证和调试，确保推理结果的准确性。
Hint-infer技术：
- 在推理过程中插入人工设计的提示（Hints），引导模型调用外部工具，而无需额外的演示数据。
- 提示能够激活模型的工具调用能力，同时作为一种简单的测试时扩展方法，提升模型的思考时间和准确性。
Hint Rejection Sampling Fine-Tuning（HintRFT）：
- 结合Hint-infer和拒绝采样微调（RFT），对模型生成的包含工具调用的推理轨迹进行评分、过滤和修改。
- 通过微调，模型能够学习如何更高效地利用工具，进一步提升推理性能。
自学习框架：
- 通过主动学习方法，从推理任务中筛选出需要工具调用的数据，生成高质量的训练数据集。
- 使用拒绝采样微调（RFT）进一步增强模型的工具使用能力和推理多样性。