大きな文書の処理速度を最適化するために、OCRmyPDFは以下の効果的なソリューションを提供します:
- 利用する
--jobs
パラメーターを使って、マルチコア並列処理を可能にする。--jobs 4
4CPUコアで高速化 - 前処理段階の追加も可能
--skip-text
重複処理を避けるため、すでにテキストがあるページはスキップする。 - 使い始める
--optimize 1
簡素化された最適化ステップ - バッチ処理のシナリオでは、運用効率を高めるためにDockerコンテナのデプロイを使用することをお勧めします。
- メモリを最適化するために、複雑なPDFを扱うときは以下の使用を検討してください。
--tesseract-timeout
単一ページの処理時間を制限する
これらの方法により、処理速度はハードウェア構成にもよるが、通常200%-400%向上する。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて