消除文本重复的4步方案
针对Tifa-Deepsex-14b-CoT可能出现的重复生成问题,可采取以下综合措施:
- Seleção de versão:首选Tifa-Deepsex-14b-CoT-Chat版本,因其包含30K DPO数据专项训练用于防重复
- Combinações de parâmetros::
parâmetros valor recomendado corresponde ao inglês -ity, -ism, -ization repeat_penalty 1.2-1.5 惩罚重复token top_k 40 增加采样多样性 top_p 0.95 平衡质量与多样性 - Engenharia de palavras:在系统提示中加入明确指令,例如:
"请避免重复使用相同的句式结构和形容词,保持词汇多样性"
- 后处理方法:开发基于余弦相似度的过滤脚本,当连续段落相似度>0.7时自动触发重生成,可使用sentence-transformers库实现
Essa resposta foi extraída do artigoTifa-Deepsex-14b-CoT: um modelo grande especializado em interpretação de papéis e geração de ficção ultralongaO