Effizientes Extraktionsprogramm für akademische Formeln
Das auf der UniMERNet-Technologie basierende Formelerkennungsmodul unterstützt drei Betriebsmodi:
- Stapelverarbeitungsmodus:Ausführen, nachdem mehrere PDFs in dasselbe Verzeichnis gelegt wurden:
python pdf_extract.py -pdf . /paper_files/ -formula-only - LaTeX-Ausgabe:Die Ergebnisse werden automatisch im Standard-LaTeX-Format gespeichert und können direkt in Editoren wie Overleaf eingefügt werden.
- Visuelle Kalibrierung:Fügen Sie den Parameter -render hinzu, um ein gerendertes Bild zu erzeugen und die Erkennungsergebnisse mit outputs/Formula_Render/ zu überprüfen.
Fortgeschrittene Techniken:Wenn komplexe Formeln vorkommen, können sie in configs/formula.yaml angepasst werden:
Auflösung: 600dpi # Verbesserte Eingabebildqualität
confidence_threshold: 0.85 #-Filterung für Identifizierung niedriger Qualität
Diese Antwort stammt aus dem ArtikelPDF-Extract-Kit: Extrahieren der komplexen Struktur des PDF-Inhalts mit dem Open-Source-ToolDie































