多言語のPDF文書を扱う場合は-l
パラメーターは言語コードの組み合わせを指定する:
- 基本的なコマンドの形式:
ocrmypdf -l 语言代码1+语言代码2 input.pdf output.pdf
- 例えば、中国語と英語が混在した文書の処理:
ocrmypdf -l eng+chi_sim input.pdf output.pdf
警告だ:
- 対応するTesseract言語パックを事前にインストールしておく必要があります。
tesseract-ocr-chi-sim
- 言語コードはTesseractのドキュメントに記載されています。
- 推奨用途
--verbose 2
パラメータ検証識別結果 - 複雑なレイアウト文書の場合は、パラメータを調整したり、プラグインを使用したりする必要があるかもしれません。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて