LongCite：提升大型语言模型在长文本问答任务中的可信度

0 30

LongCite简介

LongCite是由清华大学与智谱AI联合开发的一项先进技术，旨在提升大型语言模型在长文本问答任务中的性能。通过创新的CoF（Coarse to Fine）管道和大规模SFT数据集LongCite-45k的训练，LongCite模型能够生成包含精确句子级引用的回答，显著提高了回答的可信度和可验证性。这一突破性进展为构建更可靠、更值得信赖的人工智能系统奠定了基础。

LongCite主要功能

生成细粒度引用： LongCite能够自动在长文本问答中生成句子级别的精确引用，使用户能够验证模型回答的准确性。
提高回答的可信度： 通过提供具体的文本来源，LongCite增强了语言模型回答的可信性，减少了模型产生的错误信息或“幻觉”内容。
自动化基准测试： 利用LongBench-Cite基准测试，LongCite可以自动评估语言模型在长文本问答任务中的表现。
构建高质量数据集： 通过CoF（Coarse to Fine）管道，LongCite能够自动构建带有精确引用的长文本问答数据集，用于模型训练。
单次输出准确回答和引用： LongCite训练的模型能够在单次输出中同时生成准确的回答和相应的引用信息，提高了效率。

LongCite技术原理

LongBench-Cite基准测试： 一个自动化的评估工具，用于测试和比较不同语言模型在长文本问答任务中生成引用的能力。
CoF（Coarse to Fine）管道： 一个四阶段的自动数据处理流程，包括：
- 自我指导（Self-Instruct）： 利用语言模型生成问题和答案。
- 块级引用生成： 通过检索上下文中的相关块并生成粗粒度的块级引用。
- 句子级引用提取： 从块级引用中提取支持每个陈述的精确句子。
- 数据过滤： 移除引用数量不足的问答实例。
大规模SFT数据集LongCite-45k： 利用CoF管道构建的数据集，包含44,600个高质量的长文本问答实例，每个实例都带有精确的句子级引用。
模型微调： 使用LongCite-45k数据集对现有的大型语言模型进行微调，以提高其在长文本问答任务中生成引用的能力。
减少幻觉和提高上下文均匀利用： 通过在训练中加入引用信息，LongCite模型能够更全面地利用上下文信息，减少生成不准确或虚假内容的可能性。