Die Standardausgabe DocTags von SmolDocling kann mit Hilfe der docling_core Bibliothek in mehrere Formate konvertiert werden:
Grundlegende Umrechnungsmethode
- Zu Markdown: Verwendung
export_to_markdown()Methode, bei der die Kopfzeilenhierarchie und die Codeblöcke perfekt erhalten bleiben - Zu HTMLGeeignet für die Veröffentlichung im Internet, wobei der Stil des Formulars beibehalten wird.
- Zu LaTeXAkademische Benutzer können dies für mathematische Formeln verwenden.
Fortgeschrittene Verarbeitungstechniken
- Zusammenführen mehrseitiger Dokumente: Sammeln Sie zunächst die DocTags jeder Seite in einer Liste und verwenden Sie dann die
Document.merge() - Stilanpassung: Anpassung der HTML-Ausgabestile durch Änderung der CSS-Vorlagen
- Stapelverarbeitung: Stapelverarbeitung von Ordnern in Verbindung mit dem glob-Modul
Beispielcode für die Umwandlung:doc = DoclingDocument(name="报告")
doc.load_from_doctags(doctags)
with open("output.md", "w") as f:
f.write(doc.export_to_markdown())
Diese Antwort stammt aus dem ArtikelSmolDocling: ein visuelles Sprachmodell für die effiziente Verarbeitung von Dokumenten in einem kleinen VolumenDie































