財務報告書、学術論文、その他複雑な表や数式を含む文書に対して、dots.ocrはプロフェッショナル級のソリューションを提供します:
- フォーム抽出表のバウンディングボックスを自動検出し、完全な表構造と内容を保持したままHTML形式で出力。
- 数式認識数式をLaTeX形式で出力し、科学的表記法と数式構造の正確さを保証する。
- バッチ処理の最適化複数ページの PDF を解析す る と き は、 -num_threads パラ メ タ (た と えば 64 ス レ ッ ド ) を設定す る こ と を推奨 し ます。
- ビジュアライゼーション抽出結果の手動チェックを容易にするため、バウンディングボックスを含むビジュアルイメージを生成します。
python3のdots_ocr/parser.pyコマンドに-promptパラメータを指定するのが、ターゲット抽出には特におすすめです。
この答えは記事から得たものである。dots.ocr: 多言語文書レイアウト解析のための統一された視覚言語モデルについて