Como usar o Crawl4LLM para rastreamento da Web e extração de dados?

2025-09-05

1.6 K

Link diretoVisualização móvel

Detalhes do processo de operação

O uso do Crawl4LLM é dividido em três etapas principais:

Configurar a tarefa de rastreamento::
- Crie um arquivo de configuração YAML no diretório configs
- Defina os principais parâmetros, como caminho do conjunto de dados, número de threads, número máximo de documentos, etc.
- Opções recomendadasdclm_fasttext_scorecomo selection_method
Executando o rastreador: Implementaçãopython crawl.py crawl --config configs/my_config.yaml
extração de dados::
- fazer uso defetch_docs.pyConverter IDs de documentos em texto
- aceitávelaccess_data.pyVerificar o conteúdo de um documento específico

Ative o registro de wandb para facilitar a análise do processo de rastreamento
Configurações recomendadas para CPUs de 16 núcleosnum_workers:16
Recomenda-se reservar centenas de gigabytes de espaço em disco ao processar bilhões de dados
O armazenamento em SSD pode acelerar significativamente o processamento de conjuntos de dados em grande escala