gpt-oss-recipesリポジトリのモデル推論が遅い問題を解決するには？

2025-08-19

282

モデル推論のスピードを最適化するソリューション

GPT OSSモデルの推論速度を向上させるために、ハードウェアの設定とパラメータの最適化の両方から始めることができる：

ハードウェアの選択gpt-oss-120b のような大型モデルの場合、H100 GPU または MXFP4 量子化をサポートするハードウェア (RTX 50xx シリーズなど) に Triton カーネルをインストールして使用することをお勧めします (uv pip install git+https://github.com/triton-lang/triton.git@main#subdirectory=python/triton_kernels定量的な加速を可能にする
フレームワークの統合vLLMを使ったデプロイメント(vllm serve openai/gpt-oss-20b)であり、逐次バッチ処理機能によりスループットが向上する。
パラメタリゼーションでgenerate()中期リミットmax_new_tokensを有効にする。do_sample=Falseランダムサンプリングをオフにする
デバイスマッピングを確保する。device_map='auto'モデルレイヤーを使用可能なデバイスに正しく割り当てる

コンシューマーグレードのハードウェアの場合は、gpt-oss-20bモデルに変更することをお勧めします。その21Bパラメータは、16GBメモリデバイスでのリアルタイム応答を可能にします。