OCRmyPDFは多言語文書をどのように扱うのですか？

2025-08-19

425

直接リンクモバイルビュー

OCRmyPDFは多言語テキスト認識をサポートしており、以下のステップに従って多言語文書を処理することができます：

利用する-lオプションは言語コードを指定します。-l eng+chi_sim英語と中国語の両方を含むPDFを処理するために使用します。
対応するTesseract言語パック（例：Linuxの中国語言語パック）をインストールします：
sudo apt install tesseract-ocr-chi-sim
言語コードはTesseractのドキュメントに記載されています。

OCRmyPDFは39言語のテキスト認識に対応しており、中国語と英語の混在した契約書や学術論文など、複数の言語が混在したスキャン文書の処理に適しています。

クイック照会ステーションAIツール