Histórico
O pré-treinamento do LLM requer uma grande quantidade de dados de alta qualidade, e o rastreamento tradicional da Web sofre com a redundância e a ineficiência dos dados. O Crawl4LLM oferece uma solução inteligente para filtrar conteúdo de alto valor por meio de algoritmos.
Procedimentos operacionais básicos
- Configure a filtragem inteligente:Defina selection_method como dclm_fasttext_score no arquivo YAML para permitir o pré-treinamento do modelo de avaliação
- Ajuste os parâmetros de rastreamento:Controle o número de threads por meio de num_workers (recomenda-se 16 threads para CPUs de 16 núcleos), max_num_docs define o limite de documentos.
- Use o armazenamento SSD:Melhore o desempenho de E/S armazenando grandes conjuntos de dados, como o ClueWeb22, em SSDs
- Ativar o monitoramento de W&B:Defina wandb:true para registrar o processo de rastreamento para otimização posterior
advertência
Para o primeiro uso, é necessário fazer o download do classificador fastText no diretório especificado e certificar-se de que a versão do Python seja ≥ 3.10. Recomenda-se executá-lo em um ambiente virtual para evitar conflitos de dependência.
Essa resposta foi extraída do artigoCrawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLMO































