マルチフォーマット表抽出ソリューション
このツールは、研究者のテーブル抽出のニーズに対して、以下の最適化されたソリューションを提供する:
- フォーマット選択マークダウン、ラテックス、htmlの出力形式をサポートしています。
extraction_formatパラメーターがある。curl -X POST -F 'file=@paper.pdf' -F 'extraction_format=markdown' localhost:5060 --output table.md - 処理加速LightGBMの高速モードを使用することで、時間的制約のあるシナリオも可能になります。
fast=trueパラメータによって処理速度を4倍に向上させることができる(15ページの用紙で約0.42秒/ページ) - 正確な検証ビジュアル注釈の生成 PDF
curl -X POST -F 'file=@paper.pdf' localhost:5060/visualize --output visualized.pdfテーブルの目視検査で境界を確認
警告だ:
- 複雑な表は、レイアウト解析機能と組み合わせて使用することをお勧めします。
curl -X POST -F 'file=@paper.pdf' localhost:5060 --output analysis.json - ページ間のフォーム処理では、データの連続性を手動で検証する必要がある。
- 学術論文の3行表などの特殊な書式は、後で手作業でスタイルを調整する必要がある。
この答えは記事から得たものである。PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。について































