低遅延構文解析のための性能調整スキーム
V2.0バージョンはパフォーマンスの最適化が図られているが、医療/産業用などのリアルタイム制御シナリオでは、さらなる最適化が必要である:
- ハードウェアのレベル:CUDA 12.xでアクセラレート、RTX 4090クラスGPU推奨
- 構成の最適化:train_args.yamlのbatch_sizeとnum_workersパラメータを修正する。
- パイプラインの最適化:非同期処理を有効にする(現在のフレームを解析しながら、次のフレームを並行して取得する)
主要パラメータの調整:
- デフォルトの640pxの入力解像度を480pxに下げる(アスペクト比を維持する)
- 必要でない icon_caption_florence の記述生成を無効にする。
- TensorRTを使ってモデルの重みを変換する
測定によると、上記の調整により、レイテンシを210msから89msに削減でき、ほとんどのリアルタイム制御要件を満たすことができる。極端なシナリオの場合は、Jetson AGXのようなハードウェアレベルのソリューションを導入することをお勧めします。
この答えは記事から得たものである。OmniParser: ユーザーインターフェースのスクリーンショットを構造化された要素に解析し、大規模なモデルの理解と操作を容易にします。について




























