Docstrangeのフォーム抽出機能には次のような特徴がある:
- 複数レベルの表ヘッダ、結合セルなど、複雑な表構造を正確に識別し、抽出する能力。
- テーブルの複数フォーマットへの変換をサポート:
- Markdownフォーマット:ドキュメントの編集やナレッジ管理を容易にします。
- HTMLフォーマット:ウェブプレゼンテーションに直接使用可能
- CSV形式:データ分析やデータベースへのインポートに適しています。
- 元のテーブルの完全な構造とデータ関係を保持する。
例えば、財務諸表を処理するときにPython APIを使うことができる:html_table = result.extract_html()
完全なHTML表コードを取得するか、コマンドラインから直接Markdown形式で表を出力する。
この答えは記事から得たものである。Docstrange: ドキュメントや画像からデータを抽出し、複数のフォーマットに変換するツール。について