Uma solução de processo completo para limpeza de dados educacionais
O CleanTool oferece um método de otimização de dados em três etapas:
- Limpeza básicaImplementar comandos padrão para remover duplicatas e dados de baixa qualidade
python clean_tool.py --input raw_data.json --output stage1.json --gpu True
- aprimoramento do domínio:: Os dados que contêm características educacionais, como "pedagógico" e "cognitivo", são retidos por meio do parâmetro -edu_keywords.
python clean_tool.py --input stage1.json --output final_data.json --edu_keywords teaching,learning
- garantia de qualidadeGeração de relatórios de qualidade de dados usando o parâmetro -metrics (inclui métricas como densidade lexical, coerência temática, etc.)
Sugestões para cenários especiais:
- Dados de aconselhamento: adição do parâmetro -sentiment_filter para manter o diálogo rico em emoções
- Dados multilíngues: separação de idiomas com o parâmetro -lang en/zh
- Processamento em larga escala: use -batch_size 1024 para aumentar a eficiência do processamento
Essa resposta foi extraída do artigoEduChat: um modelo de diálogo educacional de código abertoO