モデルの定義とコアの違い
DeepSeek-TNG-R1T2-Chimeraは、ドイツのTNG Technology Consulting GmbHによって開発されたオープンソースの大規模言語モデルで、MITライセンスの下、Hugging Faceプラットフォーム上でホストされています。主な機能は以下の通りです:
- マルチモデル・フュージョンアーキテクチャR1、V3-0324、R1-0528の3つの親モデルを専門家会議(Assembly of Experts)の手法で統合。
- 効率の最適化推論速度は20%がR1を上回り、R1-0528の2倍以上。
- インテリジェント・エンハンスメントGPQAやAIME-24/25のようなベンチマークでより良いパフォーマンス
前モデルのDeepSeek-R1T-Chimeraと比較して、R1T2は主に以下の点が改良されている:
- フィックス マーキングの一貫性の問題出力信頼性の向上
- トークンの効率を最適化し、同じコンテンツを生成するのに必要なトークンの数を減らす。
- 多言語処理能力を向上させる新しいトレーニングデータと手法の導入
この答えは記事から得たものである。DeepSeek-TNG-R1T2-Chimera: ドイツTNG社がDeepSeekの機能強化を発表について































