WeClone提供了完整的数据预处理流程:
- データエクスポート:需先使用PyWxDump工具解密微信数据库,选择CSV格式导出特定联系人或群聊记录
- データ準備:将导出的CSV文件夹(默认路径wxdump_tmp/export/csv)放入项目目录的./data/csv下
- フォーマット変換:运行自带的csv_to_json.py脚本将数据转为JSON训练格式
- 敏感信息过滤:系统会自动过滤手机号、身份证号等,用户可在blocked_words.json中添加自定义禁用词
注意事项:1)建议至少准备2000条高质量对话数据;2)群聊数据需要手动筛选有效对话;3)示例数据格式可参考data/example_chat.csv。
この答えは記事から得たものである。WeClone:WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成について