SmolDocling ist ein Visual Language Model (VLM), das vom ds4sd-Team in Zusammenarbeit mit IBM entwickelt wurde und auf SmolVLM-256M basiert. Seine Hauptmerkmale sind die geringe Größe (nur 256M Parameter) und die hohe Effizienz, wodurch es sich besonders für die Ausführung auf gängigen Geräten eignet. Das Modell wird auf der Hugging Face Plattform gehostet und ist das kleinste visuelle Sprachmodell der Welt.
Die wichtigsten Merkmale sind:
- Textextraktion (OCR)Unterstützung für mehrsprachige Texterkennung
- Layout-AnalyseAutomatische Erkennung von Überschriften, Absätzen und anderen Dokumentstrukturen
- Professionelle Bearbeitung von InhaltenCodeblöcke (in reserviertem Format), mathematische Formeln und grafische Daten können extrahiert werden.
- Strukturierte AusgabeGenerierung von Dokumenten im standardisierten DocTags-Format
- Unterstützung für hohe AuflösungOptimierung des Umgangs mit großen Bildformaten
Im Gegensatz zu anderen visuellen Modellen für allgemeine Zwecke ist SmolDocling für die Konvertierung von Dokumenten optimiert und eignet sich besonders für die akademische Forschung, die Verarbeitung von Programmierdokumenten und andere Anwendungen, die ein genaues Parsing komplexer Schriftsätze erfordern.
Diese Antwort stammt aus dem ArtikelSmolDocling: ein visuelles Sprachmodell für die effiziente Verarbeitung von Dokumenten in einem kleinen VolumenDie































 Deutsch
Deutsch				 简体中文
简体中文					           English
English					           日本語
日本語					           Português do Brasil
Português do Brasil