SmolDocling hat drei wichtige Unterscheidungsmerkmale:
- Extremes Leichtgewicht256M-Parameter sind 10-100 Mal kleiner als herkömmliche VLMs und können auf Consumer-Hardware ausgeführt werden
- Dokument SpezialisierungDocTags: Ausgabeformat für das Parsen von Dokumenten, strukturierter als allgemeines JSON/XML
- Fähigkeit zur PräzisionsanalyseBessere Erkennung spezieller Inhalte wie z. B. Code-Einrückungen, Formelzeichen usw. als allgemeine OCR-Tools.
Verglichen mit der Basisversion von SmolVLM:
- Übernimmt die Funktion "Kleine Größe", konzentriert sich aber eher auf die Verarbeitung von Dokumenten als auf das Verstehen allgemeiner Bilder
- Optimierte Verarbeitung für hochauflösende Bilder hinzufügen
- Spezialisierte Algorithmen für die integrierte Analyse des Dokumentenlayouts
Praktische Tests zeigen, dass die Erkennungsgenauigkeit von Formeln und Tabellen bei komplexen Dokumenten, wie z. B. akademischen Arbeiten, um 15-20% höher ist als die von Allzweckmodellen, während der Speicherverbrauch um mehr als 60% reduziert wird.
Diese Antwort stammt aus dem ArtikelSmolDocling: ein visuelles Sprachmodell für die effiziente Verarbeitung von Dokumenten in einem kleinen VolumenDie































