O Crawl4LLM é totalmente de código aberto na plataforma GitHub, sob o protocolo Apache 2.0, e foi projetado para garantir a reprodutibilidade da pesquisa e a facilidade de desenvolvimento secundário.
Os principais recursos incluídos no projeto são:
- Código-fonte de implementação completa do Python, compatível com ambientes Python 3.10+
- O arquivo Requirements.txt lista todas as dependências e oferece suporte à instalação do pip com um clique.
- O arquivo de configuração YAML de amostra mostra os parâmetros por completo, incluindo:
- cw22_root_path define o caminho do conjunto de dados
- selection_method especifica o algoritmo de seleção inteligente.
- rater_name define o tipo de avaliador
O projeto também é apoiado por uma cadeia de ferramentas completa:
- O crawl.py é responsável pelo processo principal de rastreamento
- O fetch_docs.py implementa a extração de conteúdo de texto
- O access_data.py oferece suporte à visualização de um único documento
Esse design pronto para uso reduz drasticamente a barreira ao uso, permitindo que os desenvolvedores configurem o ambiente e façam seu primeiro rastreamento em menos de 30 minutos.
Essa resposta foi extraída do artigoCrawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLMO































