Handbuch zur PDF-Konvertierung
MarkPDFDown bietet eine Vielzahl flexibler Methoden zur Dokumentenkonvertierung, die je nach den Anforderungen verschiedener Szenarien ausgewählt werden können:
Basis-Konvertierungsmodus
- Vollständige Dokumentenkonvertierung::
python main.py < input.pdf > output.mdGesamte PDF-Datei in Markdown konvertieren - Festlegen von Seitenübergängen::
python main.py 2 5 < input.pdf > output.mdNur Umwandlung der Seiten 2-5
Programm für fortgeschrittene Anwendungen
- Stapeldatei::
Verwenden Sie ein Shell-Skript, um alle PDF-Dateien im Verzeichnis zu durchsuchen:for file in *.pdf; do python main.py < "$file" > "${file%.pdf}.md"; done - Der Docker-Weg::
Vermeiden Sie die Konfiguration der lokalen Umgebung:docker run -i -e OPENAI_API_KEY=your_key jorben/markpdfdown < input.pdf > output.md
Anpassung der Ausgabeergebnisse
In der konvertierten Markdown-Datei bleibt das Originaldokument erhalten:
- Titelniveau (erreicht durch #-Tagging)
- Gegenstände auflisten (mit - oder Zahlenmarkierungen)
- Tabellen (umgewandelt in Markdown-Tabellensyntax)
Der Benutzer kann die Umwandlung optimieren, indem er die Verarbeitungslogik in main.py bearbeitet.
Diese Antwort stammt aus dem ArtikelMarkPDFDown: Konvertierung von PDF in Markdown basierend auf einem multimodalen ModellDie































