该模型存在三个主要变体版本:
1. 基础版(Tifa-Deepsex-14b-CoT)
- 研究测试性质
- RL奖励算法初期验证
- 输出灵活但可控性低
2. Chat版(Tifa-Deepsex-14b-CoT-Chat)
- 采用标准训练数据(0.4T小说+112K SFT数据)
- 集成DPO强化学习防重复
- 政治安全性增强
- 平衡发散性与稳定性
3. Crazy版(Tifa-Deepsex-14b-CoT-Crazy)
- 基于671B满血R1蒸馏数据
- 文学创作能力突出
- 继承R1模型的发散特性
- 增量训练数据达502K条
普通用户推荐使用Chat版,研究型用户可选择基础版,专业写作者可尝试Crazy版获取更富创意的文本输出。
この答えは記事から得たものである。Tifa-Deepsex-14b-CoT:ロールプレイングと超長編小説の生成に特化した大型モデル。について