当前位置：首页 » AI答疑

怎样提升Tifa-Deepsex-14b-CoT在中文小说生成中的语言纯净度？

2025-09-10

3.5 K

实现纯中文输出的技术方案

针对模型可能出现的中英混杂问题，可采取多层级解决方案：

预处理策略：
1. 在系统提示中明确要求：”请使用规范的中文表达，避免直接使用英文术语”
2. 对于必须出现的专业名词，提供对应中文翻译表
模型选择：优先使用增量训练后的Tifa-Deepsex-14b-CoT-Chat版本，其针对中文语料额外训练了0.4T数据
后处理方案：
- 建立中英替换词典（如”NPC→角色”）
- 使用正则表达式过滤残余英文：
  output = re.sub(r'[A-Za-z]{2,}', replace_func, output)
领域词典强化：对于特定类型小说（如科幻），可在提示词中添加：
"请使用以下中文术语：星际航行（而非space travel）、机械智能（而非AI）"
质量监控：开发英文词汇检测脚本，当英文比例＞5%时自动触发重生成