WeClone bietet einen vollständigen Datenvorverarbeitungsprozess:
- DatenexportSie müssen zunächst die WeChat-Datenbank mit dem PyWxDump-Tool entschlüsseln und dann das CSV-Format auswählen, um bestimmte Kontakt- oder Gruppenchat-Datensätze zu exportieren.
- Vorbereitung der Daten: Legen Sie den exportierten CSV-Ordner (Standardpfad wxdump_tmp/export/csv) in das Projektverzeichnis unter . /data/csv
- Formatkonvertierungcsv_to_json.py: Führen Sie das mitgelieferte Skript csv_to_json.py aus, um die Daten in das Trainingsformat JSON zu konvertieren.
- Filterung sensibler InformationenDas System filtert automatisch Mobiltelefonnummern, ID-Nummern usw. Benutzer können benutzerdefinierte Sperrwörter in der Datei blocked_words.json hinzufügen.
Hinweis: 1) Es wird empfohlen, mindestens 2.000 qualitativ hochwertige Dialogdaten vorzubereiten; 2) Die Gruppenchatdaten müssen manuell nach gültigen Dialogen gefiltert werden; 3) Das Beispieldatenformat kann unter data/example_chat.csv abgerufen werden.
Diese Antwort stammt aus dem ArtikelWeClone: Ausbildung von digitalen Doppelgängern mit WeChat-Chat-Protokollen und StimmenDie





























