Die Formularextraktionsfunktion von Docstrange hat die folgenden Merkmale:
- Fähigkeit zur genauen Erkennung und Extraktion komplexer Tabellenstrukturen, einschließlich mehrstufiger Tabellenköpfe, zusammengeführter Zellen usw.
- Unterstützung für die Konvertierung von Tabellen in mehrere Formate:
- Markdown-Format: für einfache Dokumentenbearbeitung und Wissensmanagement
- HTML-Format: kann direkt für die Webpräsentation verwendet werden
- CSV-Format: geeignet für die Datenanalyse und den Import in Datenbanken
- Beibehaltung der vollständigen Struktur und der Datenbeziehungen der Originaltabelle
Eine Python-API kann zum Beispiel bei der Verarbeitung von Finanzberichten verwendet werden:html_table = result.extract_html()
Holen Sie sich den vollständigen HTML-Tabellencode, oder geben Sie die Tabelle im Markdown-Format direkt über die Befehlszeile aus.
Diese Antwort stammt aus dem ArtikelDocstrange: ein Tool zum Extrahieren von Daten aus Dokumenten und Bildern und deren Konvertierung in verschiedene FormateDie