多言語OCR認識の精度を向上させる主な方法は以下の通りである:
- 言語パックがインストールされていることを確認するとして
tesseract-ocr-chi-sim
簡体字中国語 - 言語パラメータを正しく指定するスルー
-l eng+fra+deu
多言語混在認識のためのフォーマットサポート - 前処理の最適化イネーブル
--clean
スキャンのノイズを除去する。--deskew
自動傾き補正 - 画質の最適化低画質のスキャンを処理するときに使用
--oversample 300
DPIを上げる - 結果の検証協力
--verbose 2
対象となるパラメータ調整の詳細ログを表示
特殊な文字(日本語の漢字など)については、最適な認識を得るために、異なるバージョンのTesseractをテストすることをお勧めします。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて