論文中の数式を一括抽出するには？

2025-09-05

1.8 K

直接リンクモバイルビュー

効率的な数式抽出プログラム

UniMERNet技術に基づく数式認識モジュールは、3つの動作モードをサポートしている：

バッチ処理モード：複数のPDFを同じディレクトリに入れた後に実行する：
python pdf_extract.py -pdf ./paper_files/ -formula-only
LaTeX出力：結果は標準的なLaTeX形式で自動的に保存され、Overleafなどのエディターに直接挿入することができる。
目視による校正：renderパラメータを追加してレンダリング画像を生成し、outputs/Formula_Render/で認識結果を確認する。

高次スキル：複雑な数式に遭遇した場合は、configs/formula.yamlで調整できる：
解像度：600dpi # 入力画質の向上
confidence_threshold: 0.85 低品質識別のための#フィルタリング