API呼び出しのベストプラクティス
効率的で安定したテキスト抽出を実現するためには、次のような技術的なポイントに着目する必要がある:
- データ前処理: 画像はグレースケールに変換し、シャープにすることをお勧めします。PDFはまずPNG形式にページングすることをお勧めします。
- パラメータの最適化::
- 温度は、精度と滑らかさのバランスをとるために0.2~0.5に設定される。
- max_tokensはドキュメントの長さに応じて調整されるが、一般的なA4ドキュメントでは3072で十分!
- バッチファイル非同期リクエスト・キューを実装し、同時実行数≤4(GPUグラフィックス・メモリによる)を制御する。サンプルコード:
from concurrent.futures import ThreadPoolExecutor
with ThreadPoolExecutor(max_workers=4) as executor:
results = list(executor.map(ocr_page_with_rolm, img_base64_list))
パフォーマンス最適化のヒント:複数ページのドキュメントの場合、vLLMの連続バッチ処理機能を有効にすることをお勧めします。APIのレスポンスタイムを監視することに注意してください。
この答えは記事から得たものである。RolmOCR: 手書き文字と斜め文字を認識する文書OCRモデルについて