WeCloneは完全なデータ前処理プロセスを提供します:
- データエクスポートまずPyWxDumpツールを使ってWeChatデータベースを解読し、特定の連絡先やグループチャットの記録をエクスポートするためにCSV形式を選択する必要があります。
- データ準備エクスポートした CSV フォルダ(デフォルトパスは wxdump_tmp/export/csv)をプロジェクトディレクトリの ./data/csv
- フォーマット変換同梱のcsv_to_json.pyスクリプトを実行し、データをJSONトレーニングフォーマットに変換します。
- 機密情報のフィルタリングユーザはblocked_words.jsonにカスタムの禁止ワードを追加することができます。
2) グループチャットデータは、有効なダイアログを手動でフィルタリングする必要がある。3) データフォーマットの例は、data/example_chat.csvを参照できる。
この答えは記事から得たものである。WeClone:WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成について





























