Detalhes do processo de operação
O uso do Crawl4LLM é dividido em três etapas principais:
- Configurar a tarefa de rastreamento::
- Crie um arquivo de configuração YAML no diretório configs
- Defina os principais parâmetros, como caminho do conjunto de dados, número de threads, número máximo de documentos, etc.
- Opções recomendadas
dclm_fasttext_scorecomo selection_method
- Executando o rastreador: Implementação
python crawl.py crawl --config configs/my_config.yaml - extração de dados::
- fazer uso de
fetch_docs.pyConverter IDs de documentos em texto - aceitável
access_data.pyVerificar o conteúdo de um documento específico
- fazer uso de
habilidade prática
- Ative o registro de wandb para facilitar a análise do processo de rastreamento
- Configurações recomendadas para CPUs de 16 núcleos
num_workers:16 - Recomenda-se reservar centenas de gigabytes de espaço em disco ao processar bilhões de dados
- O armazenamento em SSD pode acelerar significativamente o processamento de conjuntos de dados em grande escala
Essa resposta foi extraída do artigoCrawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLMO































