Tifa-Deepsex-14b-CoTは革新的な定量化ソリューションでデバイスの限界を突破:
- 4ビットパケット量子化GPTQ-Autoアルゴリズムを使用することで、RTX3060(12G RAM)に128kのフルコンテキストモデルをロードすることができます。
- CPUの最適化: llama.cppフレームワーク用に最適化されたGGUFフォーマットにより、M2 Macbookは毎秒最大7トークンの推論速度を達成。
- モバイル適応公式APKクライアントは、ダイナミックオフロード技術により、Snapdragon 8 Gen2チップセットの携帯電話でロールプレイングのリアルタイムレスポンスを可能にします。
測定によると、Q4バージョンでは、オリジナルモデル95%の効果を維持しながら、必要なグラフィックメモリを28GB(F16)から6GBに削減し、クリエイターはプロ用機器を使用することなく、最高のAIライティング能力を使用できるようになりました。
この答えは記事から得たものである。Tifa-Deepsex-14b-CoT:ロールプレイングと超長編小説の生成に特化した大型モデル。について































