PaSa：字节跳动推出的一款学术论文搜索代理

0 60

PaSa简介

PaSa是由字节跳动研究团队开发的一款学术论文搜索代理，旨在通过大型语言模型（LLM）技术提升复杂学术查询的搜索效率和准确性。它由两个LLM代理——Crawler和Selector组成，能够自主地使用搜索工具、阅读论文并导航引用网络，以提供全面且精准的搜索结果。开发团队通过构建高质量的合成数据集AutoScholarQuery和真实世界数据集RealScholarQuery来训练和评估PaSa。实验结果表明，PaSa在召回率和精确度上显著优于现有的学术搜索引擎，包括Google Scholar和基于GPT-4的搜索工具。这一创新工具为研究人员提供了更高效的文献检索解决方案，极大地节省了学术研究中的文献综述时间。

PaSa主要功能

自主学术搜索：PaSa能够自主处理复杂的学术查询，通过模拟人类研究者的行为，使用搜索工具、阅读论文并导航引用网络，以提供全面且准确的搜索结果。
多策略搜索：PaSa的Crawler代理可以生成多样化的搜索查询，通过多次搜索和引用扩展，逐步发现与用户查询相关的更多论文，从而提高搜索的召回率。
精准筛选：Selector代理能够仔细阅读每篇论文的标题和摘要，判断其是否符合用户查询的要求，并生成决策理由，确保搜索结果的高精度。
实时更新与扩展：PaSa可以实时处理最新的学术论文，并通过引用网络扩展搜索范围，确保搜索结果的时效性和全面性。
用户友好：PaSa提供清晰的搜索结果展示，并为每个结果提供决策理由，增强用户对搜索结果的信任。

PaSa技术原理

强化学习框架
PaSa基于AGILE（一种LLM代理的强化学习框架）实现，通过会话级PPO（近端策略优化）算法，解决学术搜索任务中的稀疏奖励和长轨迹问题。
双代理架构
- Crawler代理：负责生成搜索查询，调用搜索工具，处理引用扩展，并将相关论文添加到论文队列中。其目标是最大化搜索结果的召回率。
- Selector代理：负责阅读论文队列中的每篇论文，判断其是否符合用户查询的要求，并生成决策理由。其目标是提高搜索结果的精确度。
高质量数据集驱动
- AutoScholarQuery：包含35,511个细粒度学术查询及其对应论文的合成数据集，用于训练和优化PaSa。
- RealScholarQuery：包含50个真实世界学术查询及其标注的相关论文，用于评估PaSa在现实场景中的表现。
稀疏奖励与辅助奖励机制
由于AutoScholarQuery中的标注数据可能不完整，PaSa通过Selector代理作为辅助奖励模型，为Crawler提供更丰富的奖励信号，从而优化搜索策略。
会话级PPO训练
为解决长轨迹问题，PaSa采用会话级PPO算法，将完整的搜索轨迹划分为多个会话，每个会话独立训练，显著提高了训练效率和模型性能。
LLM与搜索工具结合
PaSa利用LLM的强大语言理解和生成能力，结合Google等搜索工具的检索能力，实现了高效、精准的学术搜索。