BFS-Prover：字节豆包等推出的自动定理证明系统

0 50

BFS-Prover简介

BFS-Prover是由字节豆包和斯坦福大学合作开发的自动定理证明系统。该系统基于Best-First Tree Search（BFS）算法，结合大型语言模型（LLM）的强大能力，通过专家迭代、直接偏好优化（DPO）和长度归一化等创新策略，有效提升了定理证明的效率和性能。BFS-Prover在MiniF2F测试集上取得了72.95%的准确率，刷新了自动定理证明领域的最高水平，证明了BFS在大规模定理证明任务中的潜力。该系统以简洁高效的设计，挑战了传统复杂树搜索方法的必要性，为未来自动定理证明研究提供了新的方向。

BFS-Prover主要功能

自动定理证明：BFS-Prover能够自动生成形式化证明，支持复杂的数学命题验证，确保逻辑的正确性和完备性。
高效证明搜索：系统通过Best-First Tree Search（BFS）算法，结合长度归一化和动态资源分配，高效探索证明路径，尤其擅长处理需要长推理链的复杂定理。
专家迭代与数据过滤：通过专家迭代框架，系统自动过滤简单问题，专注于更具挑战性的定理，逐步提升模型的推理能力。
策略优化与反馈学习：利用Lean编译器的错误反馈，通过直接偏好优化（DPO）改进策略，避免无效路径，提高样本效率。
分布式证明能力：BFS-Prover支持分布式证明，能够高效利用多机资源，实现大规模并行化证明搜索，显著提升证明效率。

BFS-Prover技术原理

Best-First Tree Search（BFS）：BFS通过优先队列管理证明节点，基于累积概率评分机制选择扩展路径。系统引入长度归一化，缓解了BFS对长路径的天然偏好，使其更适合深度推理。
专家迭代框架：系统在每轮迭代中通过beam search过滤简单问题，专注于更复杂的定理。随着迭代进行，模型不断学习更深层次的推理模式。
直接偏好优化（DPO）：利用Lean编译器的错误反馈，生成正负样本对，通过DPO优化模型策略，避免无效路径，提升证明搜索的效率。
LeanDojo环境集成：BFS-Prover通过LeanDojo将Lean4转化为类似gym的环境，实现LLM与形式证明助手的高效交互，支持实时状态更新和错误捕捉。
分布式证明架构：系统基于Ray实现分布式证明，通过GPU和CPU的异步交互，最大化硬件资源利用率，实现高效的并行化证明搜索。
动态资源分配与探索平衡：BFS-Prover通过调整长度归一化参数和扩展宽度，动态平衡探索与利用，支持多样化证明路径的搜索。