WebThinker：人民大学联合BAAI等机构开发的深度研究代理框架

0 20

WebThinker项目简介

WebThinker是由中国人民大学、北京人工智能研究院（BAAI）和华为泊松实验室联合开发的深度研究代理框架。它旨在通过增强大型推理模型（LRMs）的网络搜索和报告撰写能力，解决其在复杂知识密集型任务中的局限性。WebThinker集成了深度网络探索模块和自主思考-搜索-撰写策略，使LRMs能够在推理过程中自主进行网络搜索、页面导航和报告草稿撰写。开发团队通过基于强化学习的训练策略，进一步优化了模型对研究工具的利用能力。WebThinker在复杂推理基准测试和科学报告生成任务中均表现出色，显著超越了现有方法和强大的专有系统。

WebThinker主要功能

自主网络搜索与深度探索：
- WebThinker能够自主进行网络搜索，通过深度网络探索模块（Deep Web Explorer）动态检索和提取信息，填补知识缺口。
- 它可以导航网页，点击链接或按钮，深入挖掘多层级的网页内容，获取更全面的信息。
实时报告撰写与编辑：
- 在推理过程中，WebThinker能够实时撰写、检查和编辑研究报告。
- 它通过专门的工具（如撰写特定章节、检查当前报告、编辑报告）确保报告的全面性、连贯性和准确性。
复杂推理与问题解决：
- WebThinker能够处理复杂的推理任务，通过多步推理解决知识密集型问题。
- 它可以结合网络搜索结果，生成详细的推理链，并输出准确的答案。
强化学习优化：
- WebThinker采用基于强化学习（RL）的训练策略，通过在线直接偏好优化（DPO）方法，逐步提升模型对研究工具的利用能力。
- 这使得模型能够根据任务需求动态调整其行为，优化推理和工具使用策略。

WebThinker技术原理

深度网络探索模块（Deep Web Explorer）：
- 搜索引擎集成：WebThinker通过集成搜索引擎（如Bing）检索与任务相关的网页。
- 交互式网页导航：利用网页交互工具（如点击链接或按钮）深入探索网页内容，获取更深层次的信息。
- 动态信息提取：根据当前查询的搜索结果，动态决定是否进行进一步搜索或深入导航，提取高质量的信息。
自主思考-搜索-撰写策略：
- 实时撰写：WebThinker能够在推理过程中实时撰写报告，根据已获取的信息动态生成报告内容。
- 内容检查与编辑：通过辅助语言模型（LLM）检查当前报告的结构和内容，确保报告的连贯性和准确性，并根据需要进行编辑。
- 多任务并行处理：推理、搜索和撰写任务并行进行，提高任务执行效率。
强化学习训练策略：
- 在线直接偏好优化（DPO）：通过在线DPO方法，模型根据任务的准确性、工具使用情况和最终输出结果进行优化。
- 迭代训练：采用迭代训练方式，模型在每次迭代中根据新的反馈调整策略，逐步提升性能。
- 偏好数据构造：通过构造偏好数据对（如正确答案与错误答案的对比），模型学习更优的推理和工具使用策略。