SmolDocling ist ein Visual Language Model (VLM), das vom ds4sd-Team in Zusammenarbeit mit IBM entwickelt wurde und auf SmolVLM-256M basiert. Seine Hauptmerkmale sind die geringe Größe (nur 256M Parameter) und die hohe Effizienz, wodurch es sich besonders für die Ausführung auf gängigen Geräten eignet. Das Modell wird auf der Hugging Face Plattform gehostet und ist das kleinste visuelle Sprachmodell der Welt.
Die wichtigsten Merkmale sind:
- Textextraktion (OCR)Unterstützung für mehrsprachige Texterkennung
- Layout-AnalyseAutomatische Erkennung von Überschriften, Absätzen und anderen Dokumentstrukturen
- Professionelle Bearbeitung von InhaltenCodeblöcke (in reserviertem Format), mathematische Formeln und grafische Daten können extrahiert werden.
- Strukturierte AusgabeGenerierung von Dokumenten im standardisierten DocTags-Format
- Unterstützung für hohe AuflösungOptimierung des Umgangs mit großen Bildformaten
Im Gegensatz zu anderen visuellen Modellen für allgemeine Zwecke ist SmolDocling für die Konvertierung von Dokumenten optimiert und eignet sich besonders für die akademische Forschung, die Verarbeitung von Programmierdokumenten und andere Anwendungen, die ein genaues Parsing komplexer Schriftsätze erfordern.
Diese Antwort stammt aus dem ArtikelSmolDocling: ein visuelles Sprachmodell für die effiziente Verarbeitung von Dokumenten in einem kleinen VolumenDie































