消除文本重复的4步方案
针对Tifa-Deepsex-14b-CoT可能出现的重复生成问题,可采取以下综合措施:
- Version Selection:首选Tifa-Deepsex-14b-CoT-Chat版本,因其包含30K DPO数据专项训练用于防重复
- Parameter combinations::
parameters recommended value corresponds English -ity, -ism, -ization repeat_penalty 1.2-1.5 惩罚重复token top_k 40 增加采样多样性 top_p 0.95 平衡质量与多样性 - Cue word engineering:在系统提示中加入明确指令,例如:
"请避免重复使用相同的句式结构和形容词,保持词汇多样性"
- Reprocessing methods:开发基于余弦相似度的过滤脚本,当连续段落相似度>0.7时自动触发重生成,可使用sentence-transformers库实现
This answer comes from the articleTifa-Deepsex-14b-CoT: a large model that specializes in roleplaying and ultra-long fiction generationThe