O CleanTool é uma ferramenta de pré-processamento de dados que acompanha o projeto EduChat, e seus procedimentos operacionais padrão são os seguintes:
- Preparação de entradaSalvar os dados brutos do diálogo no formato JSON, cada registro deve conter
instruction(Instruções),input(Entrada),output(Saída) Três campos - Limpeza básicaExecutar comando
python clean_tool.py --input data.json --output cleaned_data.json --gpu Truea ferramenta será acionada automaticamente:- Remover amostras duplicadas exatas (com base no hash MD5)
- Filtragem de dados de baixa qualidade (por meio de sobreposição de N-gramas e detecção de perplexidade)
- Formatação de texto padronizada (notação de canto completo/meio-canto harmonizada, etc.)
- Opções avançadas::
- Filtragem de campo: adicionar
--domain eduOs parâmetros podem reter amostras com alta relevância educacional - Controle de comprimento:
--min_length 20Remover resposta muito curta - Limites de qualidade:
--quality_threshold 0.7Ajuste dos critérios de julgamento (intervalo de 0 a 1)
- Filtragem de campo: adicionar
Foi verificado que os dados limpos podem melhorar a eficiência do treinamento do modelo em 30% e reduzir a taxa de erro em 15% em tarefas que exigem rigor, como resolução de problemas matemáticos etc. Para usuários não técnicos, o repositório do projeto fornece modelos de regras de limpeza predefinidas que podem ser aplicadas diretamente.
Essa resposta foi extraída do artigoEduChat: um modelo de diálogo educacional de código abertoO





























