最高のパフォーマンスを得るために、以下の最適化対策を推奨する:
- ドキュメントの前処理画像解像度を12メガピクセル(約4000×3000)以内にコントロールし、DPI=200に設定することで、PDFを解析する際の品質と速度のバランスをとることができます。
- タスク別のヒント: 必要に応じて特定のプロンプトを選択します。
prompt_layout_only_en
(レイアウトのみを検出)することで、フル機能の解析にリソースを浪費することを避ける。 - バッチ処理の設定複数ページのPDF解析が追加されました。
--num_threads
マルチコアCPUを最大限に活用するためのパラメータ(推奨値64)。 - ハードウェアアクセラレーションCUDA 12.x環境でvLLMを使用した場合、推奨メモリ使用率は0.95に設定されます。
--gpu-memory-utilization 0.95
) - 例外処理特殊文字はテキストのみの警告モードに切り替えることができ、連続記号は追加のクリーニングが必要。
この答えは記事から得たものである。dots.ocr: 多言語文書レイアウト解析のための統一された視覚言語モデルについて