VOPは現在、以下の言語処理能力を備えている:
組み込みの言語サポート
- ベース言語パック英語(eng)、日本語(jpn)、韓国語(kor)
- ハイブリッド認識スルー
--lang eng+jpnバイリンガル文書の同時処理のためのパラメータ
新しい言語ステップの拡大
- 対応するTesseract言語パックをインストールする(例:中国語:)
sudo apt install tesseract-ocr-chi-sim) - コンパイラ
config/languages.json設定項目を追加する:"chi": {
"tesseract_code": "chi_sim",
"google_vision_code": "zh"
} - 番組を再起動し、言語パラメータを指定する:
--lang chi+eng
警告だ:
- 新しい言語は認識精度をテストする必要があり、複雑なレイアウトの文書ではYOLOモデルのパラメーターを調整する必要があるかもしれない。
- 非ラテン系言語(アラビア語など)は、テキスト方向検出のための追加設定が必要です。
- Google Vision API(200以上の言語に対応)を優先的に使用することをお勧めしますが、数式や表の認識精度が低下する可能性があります。
この答えは記事から得たものである。VOP: 複雑な図や数式を抽出するOCRツールについて
































