Tifa-Deepsex-14b-CoT是基于Deepseek-R1-14B架构深度优化的专用大语言模型,通过多阶段训练和128k超长上下文支持技术实现了两大核心突破:
- 角色扮演强化:模型采用671B参数RL奖励算法,解决了原始模型对话性格不贴合的痛点。通过融合10K人工标注+100K生成式SFT数据,可精准生成符合角色设定的多轮对话
- 长篇生成优化:增量预训练0.4T小说语料并引入防重复DPO机制,使20万字以上文本的连贯性提升52%,在中英混杂纠正方面达到98%准确率
该模型提供F16/Q8/Q4三种量化版本,在RTX4090显卡上可实现每秒18token的推理速度,是目前少数能商业级应用的长文本创作模型。
この答えは記事から得たものである。Tifa-Deepsex-14b-CoT:ロールプレイングと超長編小説の生成に特化した大型モデル。について