CRAW4LLM：清华大学等推出的高效网络爬虫方法

0 90

CRAW4LLM简介

CRAW4LLM是由清华大学计算机科学与技术系和卡内基梅隆大学计算机学院联合开发的一种高效网络爬虫方法，旨在为大型语言模型（LLM）的预训练提供高质量数据。传统爬虫通常基于网页的图连通性（如PageRank）进行页面优先级排序，导致大量低质量数据被爬取后丢弃。CRAW4LLM创新性地将网页对LLM预训练的影响作为优先级分数，通过预训练影响评分器为网页打分，优先爬取对预训练最有价值的网页。实验表明，CRAW4LLM仅需爬取传统方法21%的网页，就能达到相同的预训练性能，显著提高了爬取效率，减少了对网站的负担，同时降低了计算资源浪费和数据使用的伦理风险。

CRAW4LLM主要功能

高效数据收集：CRAW4LLM通过优先爬取对LLM预训练最有价值的网页，显著提高了数据收集的效率，减少了不必要的爬取行为。
数据质量提升：通过预训练影响评分器筛选高质量网页，确保收集到的数据对LLM预训练有更高的贡献。
资源节约：减少了计算资源的浪费和对网站的负担，降低了爬取过程中产生的冗余流量。
伦理与法律风险降低：通过减少不必要的爬取行为，缓解了与数据公平使用和版权相关的伦理和法律问题。

CRAW4LLM技术原理

预训练影响评分器：使用预训练数据筛选流程中的数据分类模型，为每个网页分配一个预训练影响分数。这个评分器基于网页内容对LLM预训练的潜在贡献进行评分。
优先级调度：CRAW4LLM从一组种子URL开始，对每个未访问的外链使用预训练影响评分器进行评分，并根据分数将URL插入优先队列。优先队列自动根据分数排序，确保每次迭代中选择分数最高的URL进行爬取。
迭代爬取：每次迭代中，CRAW4LLM选择分数最高的n个URL进行爬取，获取新文档后提取新的外链URL，并对这些外链进行评分和排序，重复这一过程直到收集到N个文档。
对比实验：通过与传统基于图连通性的爬虫（如PageRank）和随机爬虫进行对比实验，验证了CRAW4LLM在数据质量和爬取效率上的显著优势。