Step3 リアルタイムの要求に合わせて、3層の最適化スキームを設計:
- 建築レベルMoEモデルは約12%(38億/3,120億)のパラメーターをアクティブにするだけで、1回の推論時間を40%短縮する。
- 配備レベル連続バッチ処理技術により、処理能力が3~5倍向上。
- パラメータレベル設定
max_new_tokens=512
A800グラフィックカードの応答時間は500ms以内に制御できる。
キー・コンフィギュレーションのヒント:vLLMサービスを起動する際に --tensor-parallel-size=4
パラメータはマルチGPU並列コンピューティングをフルに活用し、実測QPS(クエリー/秒)は最大120以上。
この答えは記事から得たものである。Step3: マルチモーダルコンテンツのためのオープンソースマクロモデルの効率的な生成について