CleanTool ist ein Werkzeug zur Datenvorverarbeitung, das das EduChat-Projekt begleitet und dessen Standardarbeitsanweisungen wie folgt lauten:
- Vorbereitung der EingabeSpeichern Sie die Rohdaten des Dialogs im JSON-Format, jeder Datensatz sollte enthalten
instruction(Anweisungen),input(Eingabe),output(Ausgabe) Drei Felder - GrundreinigungAusführen des Befehls
python clean_tool.py --input data.json --output cleaned_data.json --gpu Trueeingeben, wird das Programm automatisch gestartet:- Exakte Duplikate von Proben entfernen (basierend auf MD5-Hash)
- Filterung minderwertiger Daten (durch N-Gramm-Überlappung und Perplexitätserkennung)
- Standardisierte Textformatierung (harmonisierte Voll-/Halbecken-Notation usw.)
- Erweiterte Optionen::
- Feldfilterung: hinzufügen
--domain eduParameter können Proben mit hoher Bildungsrelevanz zurückbehalten - Kontrolle der Länge:
--min_length 20Zu kurze Antwort entfernen - Qualitätsschwellen:
--quality_threshold 0.7Anpassung der Beurteilungskriterien (Bereich 0-1)
- Feldfilterung: hinzufügen
Es hat sich gezeigt, dass die bereinigten Daten die Effizienz des Modelltrainings um 30% verbessern und die Fehlerquote bei Aufgaben, die Strenge erfordern, wie z. B. das Lösen mathematischer Probleme usw., um 15% senken können. Für nicht-technische Benutzer bietet das Projektarchiv Vorlagen mit voreingestellten Bereinigungsregeln, die direkt angewendet werden können.
Diese Antwort stammt aus dem ArtikelEduChat: ein Open-Source-Modell für den BildungsdialogDie































