海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

数据预处理工具能自动过滤敏感信息

2025-08-25 1.2 K

WeClone提供了一套完整的数据预处理工具链,能够自动处理微信聊天记录中的敏感信息。系统默认会过滤手机号、身份证号等个人隐私内容,确保训练数据的安全性。

技术实现上,项目包含专门的csv_to_json.py脚本,将导出的微信聊天数据转换为适合模型训练的JSON格式。同时提供blocked_words.json配置文件,允许用户自定义需要过滤的敏感信息列表。任何包含禁用词的对话段落都会被自动移除,防止隐私泄露。

此外,项目建议至少准备2000条高质量的聊天记录作为训练数据,数据量和质量直接影响最终数字分身的表现效果。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文