OCRmyPDFは多言語テキスト認識をサポートしており、以下のステップに従って多言語文書を処理することができます:
- 利用する
-l
オプションは言語コードを指定します。-l eng+chi_sim
英語と中国語の両方を含むPDFを処理するために使用します。 - 対応するTesseract言語パック(例:Linuxの中国語言語パック)をインストールします:
sudo apt install tesseract-ocr-chi-sim
- 言語コードはTesseractのドキュメントに記載されています。
OCRmyPDFは39言語のテキスト認識に対応しており、中国語と英語の混在した契約書や学術論文など、複数の言語が混在したスキャン文書の処理に適しています。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて