学術論文の数式を処理するdots.ocrのプロセスは以下の通り:
- とおすレイアウト検出正確なバウンディングボックスの座標を生成するために、ドキュメント内で数式領域を探します。
- 利用するコンテンツ認識モジュール数式をLaTeX形式に変換し、数学的表記と構造の正確さを維持する。
- のJSON出力結果では
formula
フィールドにLaTeXコードを格納し、一方Markdownファイルは$...$
フォームのインライン数式。
認識率を向上させるには、1) 入力画像のDPIが200以上であることを確認する。prompt_grounding_ocr
3) 連続した特殊文字が出力されていないかチェックする。___
) 後処理による補正が必要かどうか。
この答えは記事から得たものである。dots.ocr: 多言語文書レイアウト解析のための統一された視覚言語モデルについて