ハードウェア要件と技術のトレードオフ
Grok-2のハードウェアの敷居の高さは、3つの主要な技術的特徴に起因している。1)128エキスパートMoEアーキテクチャは、2860億アクティブパラメータを維持する必要がある。
リソースが限られている開発者にとって、モデルはこのような方法で経験することができる:
- クラウド・サービス・ソリューション: Lambda Labsは、リソースの迅速なリリースをサポートするため、プリインストール環境のインスタンスを時間単位でレンタルしています(~$12.5/時間)。
- クオンツ・ライトコミュニティからのgrok-2-mini 4bitバージョンはシングル24GB GPUで動作し、85%の容量を保持しています。
- APIアクセスxAIは2024Q4に公式APIを発表する予定であり、価格戦略はGPT-4の1/3程度になる可能性がある。
パフォーマンスのトレードオフ: 1) いくつかのエキスパートをオフにする(-expert-dropout 0.3)ことで、40%のメモリ使用量を削減できる。 --quantization fp4 モードだ。
この答えは記事から得たものである。Grok-2: xAIのオープンソースハイブリッドエキスパート大規模言語モデルについて
































