questão fundamental
Os dados brutos rastreados precisam ser processados para atender aos requisitos de treinamento do modelo.
Métodos de otimização
- Otimização da extração de texto:Adicionar o parâmetro -clean_html para remover as tags de página ao executar o fetch_docs.py
- Parágrafos de conteúdo:Configuração de max_length em YAML para evitar parágrafos longos
- Suporte multilíngue:Avaliação de conteúdo que não está em inglês usando o modelo fastText multilíngue
- Estratégia de amostragem:Uso alternativo de dclm_fasttext_score e padrões aleatórios para obter diversidade de dados
Verificação da eficácia
A qualidade dos documentos é verificada por meio do access_data.py, com verificações sugeridas que incluem: relevância do assunto, coerência do texto, densidade de informações e outras métricas. Os dados de qualidade devem ser satisfeitos ao mesmo tempo:
1) fasttext_score ≥ 0,8
2) comprimento ∈ [500,2000] caracteres
Essa resposta foi extraída do artigoCrawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLMO































