生成合成数据的典型流程如下(以创建虚拟客户邮件为例):
- 基础数据生成:
- 在空白表格输入提示“生成 5 位制药公司专业人士的简历”
- AI 自动创建包含姓名、职位、专业技能等列的表格
- 扩展数据列:
- 添加新列并输入提示“基于 {{person_bio}} 撰写专业商务邮件”
- 选择创意型模型(如 GPT-OSS)生成邮件内容
- 质量控制:
- 检查邮件格式是否合规
- 拖拽列底部生成更多样本(最多 1000 行)
- 批量导出:
- 导出数据集和 config.yml 文件
- 通过 HF Jobs 运行脚本扩展至数万条数据
该方法特别适合:
- 隐私敏感场景(避免使用真实客户数据)
- 模型训练数据扩充
- 商业流程模拟测试
本答案来源于文章《AI Sheets:无代码在表格中使用AI模型构建和处理数据集》