複雑な文書中の複数種類の要素（表／数式／手書き）を同時に認識する問題を解決するには？

2025-09-10

1.7 K

構造化された抽出プログラム

Qwen2.5-VLは、複合的な文書解析の要求に対して、階層的な処理戦略を提供します：

前処理段階::
- pdftoppmを使ってPDF文書を300dpiの画像に変換する
- 手書き文書の推奨スキャン解像度 ≥ 600 dpi
- 化学式部分は赤枠で囲み、別に切り取る。
モデルコール::
- メッセージパラメータで要素の種類を指定する：「青色の表データを抽出｜赤枠の数式を認識｜手書きコメントを翻訳」。
- フォーム出力にformat=jsonパラメータを追加して構造化データを取得する
後処理の最適化::
- テーブル認識結果を比較するためのtabula-pyライブラリのインストール
- Mathpixで複雑な数式を校正する
- 精度を高めるために、連続した手書きテキストに対して-beam-search=5を有効にする。

実例：科学論文を解析する場合、1）LaTeXフォーマットの数式 2）CSVフォーマットのデータテーブル 3）Markdownバージョンの実験記述を同時に得ることができる。