消除文本重复的4步方案
针对Tifa-Deepsex-14b-CoT可能出现的重复生成问题,可采取以下综合措施:
- 版本选择:首选Tifa-Deepsex-14b-CoT-Chat版本,因其包含30K DPO数据专项训练用于防重复
- 参数组合:
参数 推荐值 作用 repeat_penalty 1.2-1.5 惩罚重复token top_k 40 增加采样多样性 top_p 0.95 平衡质量与多样性 - 提示词工程:在系统提示中加入明确指令,例如:
"请避免重复使用相同的句式结构和形容词,保持词汇多样性"
- 后处理方法:开发基于余弦相似度的过滤脚本,当连续段落相似度>0.7时自动触发重生成,可使用sentence-transformers库实现
本答案来源于文章《Tifa-Deepsex-14b-CoT:擅长角色扮演与超长小说生成的大模型》