WeCloneは完全なデータ前処理ツールチェーンを提供し、WeChatチャット記録の機密情報を自動的に処理することができます。デフォルトでは、システムは携帯電話番号やID番号のような個人的なプライバシーコンテンツをフィルタリングし、トレーニングデータのセキュリティを確保します。
技術的な実装に関しては、このプロジェクトには、エクスポートされたWeChatチャットデータをモデル学習に適したJSON形式に変換する特別なcsv_to_json.pyスクリプトが含まれています。blocked_words.json設定ファイルも提供され、ユーザーはフィルタリングされる機密情報のリストをカスタマイズすることができます。無効化された単語を含む対話文は、プライバシー漏洩を防ぐために自動的に削除されます。
さらにこのプロジェクトでは、トレーニングデータとして少なくとも2000件の高品質なチャットログを用意することを提案しており、データの量と質は最終的なデジタル・ドッペルゲンガーの性能に直接影響する。
この答えは記事から得たものである。WeClone:WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成について































