Step3は、ビデオメモリの制限に対処するために2つのソリューションを提供しています:
- 最適化された ブロック-FP8フォーマットこれにより、従来のbf16形式に比べ、メモリフットプリントが大幅に削減された。
- 採用 ハイブリッド専門家モデル(MoE)アーキテクチャ一部のエキスパート(38億のアクティブ・パラメータ)のみをアクティブにすることで、計算オーバーヘッドを削減している。
実装:Hugging Faceからblock-fp8形式の重みをダウンロードし、vLLM推論エンジンで展開。メモリ80GBのA800/H800 GPUの場合、4枚並列運転を推奨し、メモリ消費量を60GB/枚以内に抑えることができます。ハードウェア条件に制約がある場合は、GPUのメモリ消費量を適切に削減することができます。 max_new_tokens
パラメータ値(例えば512に設定)は計算圧力を下げる。
この答えは記事から得たものである。Step3: マルチモーダルコンテンツのためのオープンソースマクロモデルの効率的な生成について