vLLMの導入により、dots.ocrのパフォーマンスが大幅に向上した:
- 推論加速vLLMのPagedAttentionテクノロジーは、メモリ使用量を最適化し、1枚のGPUで1.7Bのパラメトリック・モデルの高スループット処理を可能にします。
- サービス・サポートスルー
vllm serve
コマンドでAPIサービスを起動し、企業の文書処理パイプラインに簡単に統合できるようにする。 - 資源利用の最適化パラメーター
--gpu-memory-utilization 0.95
はGPUリソースを最大限に活用できる。--tensor-parallel-size
マルチカード拡張に対応。
ネイティブのHuggingFace推論と比較すると、vLLMバージョンはバッチドキュメントの処理において2-3倍速く、特にリアルタイムの解析が必要なシナリオに適しています。デプロイするとき、カスタムモデルをvLLMに登録するステップに注意することが重要です。modeling_dots_ocr_vllm
).
この答えは記事から得たものである。dots.ocr: 多言語文書レイアウト解析のための統一された視覚言語モデルについて