第4四半期に数値化されたモデルにより、消費者グレードのハードウェア導入が可能になる

2025-09-10

3.6 K

Tifa-Deepsex-14b-CoTは革新的な定量化ソリューションでデバイスの限界を突破：

4ビットパケット量子化GPTQ-Autoアルゴリズムを使用することで、RTX3060（12G RAM）に128kのフルコンテキストモデルをロードすることができます。
CPUの最適化: llama.cppフレームワーク用に最適化されたGGUFフォーマットにより、M2 Macbookは毎秒最大7トークンの推論速度を達成。
モバイル適応公式APKクライアントは、ダイナミックオフロード技術により、Snapdragon 8 Gen2チップセットの携帯電話でロールプレイングのリアルタイムレスポンスを可能にします。

測定によると、Q4バージョンでは、オリジナルモデル95%の効果を維持しながら、必要なグラフィックメモリを28GB（F16）から6GBに削減し、クリエイターはプロ用機器を使用することなく、最高のAIライティング能力を使用できるようになりました。

クイック照会ステーションAIツール