問題の背景
スキャンされたPDFは、画質が悪いためにOCR認識エラーが発生し、データ抽出の効果に影響を与えることがよくあります。
処方
- 高度なOCR設定を有効にする解析オプションで対応する文書の言語を選択します。
- 前処理後の画質文字が鮮明であることを保証するため、スキャンは300dpi以上の解像度に設定することをお勧めします。
- 特定の構文解析命令の使用自然言語による合図で重点分野を示す
"优先识别文档第二页的表格内容,忽略页眉页脚"
- カスタム解析パラメータコントラストと明るさのしきい値を調整し、認識を向上
- 加工後の検証キーフィールドのチェックルールを設定し、信頼性の低い認識結果に自動的にフラグを立てる。
ベストプラクティス
バッチ処理の前に、まずWeb UIを使用して単一ページのドキュメントをテストし、最適なパラメータを決定することをお勧めします。特殊なフォントに遭遇した場合は、サンプルをアップロードしてモデルの微調整を行うことができます。
この答えは記事から得たものである。LlamaParse: Llamaindexによる高品質な文書解析とデータ抽出サービス(1日1000ページ無料)。について