WeClone提供了完整的数据预处理流程:
- Exportação de dados:需先使用PyWxDump工具解密微信数据库,选择CSV格式导出特定联系人或群聊记录
- Preparação de dados:将导出的CSV文件夹(默认路径wxdump_tmp/export/csv)放入项目目录的./data/csv下
- conversão de formato:运行自带的csv_to_json.py脚本将数据转为JSON训练格式
- 敏感信息过滤:系统会自动过滤手机号、身份证号等,用户可在blocked_words.json中添加自定义禁用词
注意事项:1)建议至少准备2000条高质量对话数据;2)群聊数据需要手动筛选有效对话;3)示例数据格式可参考data/example_chat.csv。
Essa resposta foi extraída do artigoWeClone: treinamento de doppelgangers digitais com registros de bate-papo e vozes do WeChatO