Die folgenden Methoden werden für die besonderen Formatierungsanforderungen akademischer Arbeiten empfohlen:
- Priorität hat die neueste Version von Docstrange (verfügbar auf GitHub), die Algorithmen zur Absatzerkennung für akademische Dokumente verbessert.
- Enhanced Mode während der Konvertierung aktivieren:
docstrange paper.pdf --output markdown --enhanced-mode - Für Papiere, die mathematische Formeln enthalten, können Sie zunächst die Funktion
extract_text()Abrufen des Rohtextes und anschließende Verarbeitung der Formel mit einem regulären Ausdruck - Techniken zur Handhabung von Referenzen:
result.extract_data(specified_fields=["references"]) - Stapelkonvertierung ganzer Dissertationsbibliotheken:
docstrange papers/*.pdf --output markdown --output-dir ./markdown_files
Die Methode wurde getestet, um eine Erkennungsgenauigkeit von mehr als 92% für gängige Zeitschriftenformate wie IEEE/Springer zu erreichen.
Diese Antwort stammt aus dem ArtikelDocstrange: ein Tool zum Extrahieren von Daten aus Dokumenten und Bildern und deren Konvertierung in verschiedene FormateDie




























