このモデルには主に3つのバリエーション・バージョンが存在する:
1.基本バージョン(ティファ・ディープセックス-14b-CoT)
- 研究テストの性質
- RL報酬アルゴリズムの初期検証
- 出力は柔軟だが制御性は低い
2.チャット版(Tifa-Deepsex-14b-CoT-Chat)
- 標準的なトレーニングデータ(0.4T新規データ+112K SFTデータ)を使用
- 繰り返しを防止するDPO強化学習の統合
- 政治的安全性の向上
- 分散性と安定性のバランス
3.クレイジーバージョン(ティファ=ディープセックス=14b=CoT=クレイジー)
- 671B全血R1蒸留データに基づく
- 卓越した文学的・創造的スキル
- R1モデルの分散特性の継承
- 最大502Kエントリまでのインクリメンタル・トレーニング・データ
一般ユーザーにはChatエディション、研究ユーザーにはBasicエディション、プロのライターにはよりクリエイティブな文章を出力できるCrazyエディションをお勧めします。
この答えは記事から得たものである。Tifa-Deepsex-14b-CoT:ロールプレイングと超長編小説の生成に特化した大型モデル。について































