Derzeitige Position:Abb. Anfang " AI-Antworten

Was ist SmolDocling und was sind seine Hauptmerkmale?

2025-08-28

1.7 K

SmolDocling ist ein Visual Language Model (VLM), das vom ds4sd-Team in Zusammenarbeit mit IBM entwickelt wurde und auf SmolVLM-256M basiert. Seine Hauptmerkmale sind die geringe Größe (nur 256M Parameter) und die hohe Effizienz, wodurch es sich besonders für die Ausführung auf gängigen Geräten eignet. Das Modell wird auf der Hugging Face Plattform gehostet und ist das kleinste visuelle Sprachmodell der Welt.

Die wichtigsten Merkmale sind:

Textextraktion (OCR)Unterstützung für mehrsprachige Texterkennung
Layout-AnalyseAutomatische Erkennung von Überschriften, Absätzen und anderen Dokumentstrukturen
Professionelle Bearbeitung von InhaltenCodeblöcke (in reserviertem Format), mathematische Formeln und grafische Daten können extrahiert werden.
Strukturierte AusgabeGenerierung von Dokumenten im standardisierten DocTags-Format
Unterstützung für hohe AuflösungOptimierung des Umgangs mit großen Bildformaten

Im Gegensatz zu anderen visuellen Modellen für allgemeine Zwecke ist SmolDocling für die Konvertierung von Dokumenten optimiert und eignet sich besonders für die akademische Forschung, die Verarbeitung von Programmierdokumenten und andere Anwendungen, die ein genaues Parsing komplexer Schriftsätze erfordern.

Diese Antwort stammt aus dem ArtikelSmolDocling: ein visuelles Sprachmodell für die effiziente Verarbeitung von Dokumenten in einem kleinen VolumenDie

Darf nicht ohne Genehmigung vervielfältigt werden:KI-Produktivitätswerkzeuge " Was ist SmolDocling und was sind seine Hauptmerkmale?