WeClone提供了一套完整的数据预处理工具链,能够自动处理微信聊天记录中的敏感信息。系统默认会过滤手机号、身份证号等个人隐私内容,确保训练数据的安全性。
技术实现上,项目包含专门的csv_to_json.py脚本,将导出的微信聊天数据转换为适合模型训练的JSON格式。同时提供blocked_words.json配置文件,允许用户自定义需要过滤的敏感信息列表。任何包含禁用词的对话段落都会被自动移除,防止隐私泄露。
此外,项目建议至少准备2000条高质量的聊天记录作为训练数据,数据量和质量直接影响最终数字分身的表现效果。
この答えは記事から得たものである。WeClone:WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成について