Etapas de preparação ambiental
A seguinte configuração do sistema é necessária para instalar o Crawl4LLM:
- Requisitos do PythonVerifique se o Python 3.10 ou superior está instalado
- Criação de ambiente virtual::
- Linux/Mac.
python -m venv crawl4llm_env && source crawl4llm_env/bin/activate - Windows.
python -m venv crawl4llm_env && crawl4llm_envScriptsactivate
- Linux/Mac.
- Aquisição de código-fonte::
git clone https://github.com/cxcscmu/Crawl4LLM.git - Instalação dependenteVá para o diretório do projeto e execute
pip install -r requirements.txt - Download do ClassificadorColoque o arquivo do modelo do classificador DCLM fastText no arquivo
fasttext_scorers/diretório (no disco rígido do computador)
atenção especial
- O acesso aos conjuntos de dados do ClueWeb22 precisa ser solicitado com antecedência
- Recomenda-se armazenar conjuntos de dados de grande escala em SSDs para melhorar o desempenho de E/S
- Certifique-se de que a rede esteja livre para fazer o download de todos os pacotes de dependência
Essa resposta foi extraída do artigoCrawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLMO































