Satori：麻省理工学院等高校推出的大型语言模型

0 30

Satori简介

Satori是由麻省理工学院、新加坡科技与设计大学、哈佛大学、IBM研究实验室以及马萨诸塞大学阿默斯特分校的研究团队共同开发的一种新型大型语言模型（LLM）。该团队通过创新的Chain-of-Action-Thought（COAT）推理机制和两阶段训练范式（格式调整和强化学习），成功将自回归搜索能力内化到单个LLM中，显著提升了模型的推理能力。Satori在数学推理基准测试中取得了最先进的性能，并展现出强大的跨领域泛化能力。开发团队通过小规模监督和大规模自改进的方法，使Satori在效率、有效性和泛化能力上均表现出色，为未来LLM的发展提供了新的方向。

Satori主要功能

自回归搜索：Satori能够在推理过程中进行自我反思和自我探索，生成一系列中间推理步骤，从而解决复杂任务。
数学推理：在数学推理任务中，Satori表现出色，能够处理包括代数、几何和数论在内的多种数学问题。
跨领域泛化：Satori不仅在数学领域表现优异，还能在逻辑推理、代码推理、常识推理等多个领域展示强大的泛化能力。
自校正能力：Satori在推理过程中能够识别并纠正自身的错误，提高最终答案的准确性。
高效推理：通过内部化的搜索能力，Satori能够在没有外部指导的情况下进行高效推理，减少计算资源的消耗。

Satori技术原理

Chain-of-Action-Thought（COAT）推理机制：
- 继续推理（Continue Reasoning）：鼓励模型在当前推理轨迹上生成下一个中间步骤。
- 反思（Reflect）：提示模型暂停并验证之前推理步骤的正确性。
- 探索替代方案（Explore Alternative Solution）：引导模型识别推理中的关键错误并探索新的解决方案。
两阶段训练范式：
- 格式调整（Format Tuning, FT）阶段：通过小规模的监督学习，使模型熟悉COAT推理格式。
- 自改进（Self-improvement）阶段：利用强化学习（RL），特别是近端策略优化（PPO）算法，让模型在大规模数据上进行自我改进。
Restart and Explore（RAE）策略：
- 重新开始（Restart）：允许模型从中间步骤重新开始，特别是从之前失败的推理尝试中恢复。
- 探索（Explore）：通过探索奖励（reflection bonus）和偏好奖励（preference bonus），鼓励模型进行更深层次的反思和探索。
多代理数据合成框架：
- 生成器（Generator）：生成多个推理路径。
- 评论者（Critic）：评估生成路径的正确性，并提供反馈。
- 奖励模型（Reward Model）：为生成路径打分，选择最有效的路径作为最终演示轨迹。