パフォーマンス・ボトルネック分析
変換速度は主にCPU/GPU性能、PDFページ数、画像の複雑さに影響されます。ベンチマークテストによると、普通のCPUは10ページを処理するのに約3-5分かかります。
スピードアッププログラム
- ハードウェアアクセラレーション修正
device="cuda:0"
NVIDIA GPUが有効(CUDAドライバが必要) - バッチファイル複数章のカタログPDFの場合、変換後にファイルを結合することをお勧めします。
- パラメタリゼーション設定
extract()
なskip_images=True
スキップ可能な画像処理
高度なテクニック
- Linuxシステムでは、以下の機能を追加できる。
OMP_NUM_THREADS=4
スレッド数を制御する環境変数 - このモデルはロード後にメモリに常駐し、次のような用途に適しています。
while True
複数ファイルのループ連続処理 - 非常に大きなファイル(>50MB)は、最初に使用することをお勧めします。
pdfseparate
工具分割
この答えは記事から得たものである。PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツールについて