SmolDocling erreicht zivile Anwendungen durch ein dreifach leichtgewichtiges Design: Die Modellebene nutzt die Technologie der Wissensdestillation, um die Parameterskala zu komprimieren; der Laufzeitspeicherverbrauch wird auf 2 GB begrenzt; und die abhängigen Bibliotheken erfordern nur zwei grundlegende Frameworks, PyTorch und Transformers. Dies ermöglicht einen reibungslosen Betrieb auf Raspberry-Pi-Geräten, und die gemessene Verarbeitungsgeschwindigkeit auf einem Laptop mit 4-Core-CPU/8GB RAM kann immer noch 7 Seiten/Minute erreichen.
Die Bereitstellungslösung bietet ein Docker-Container-Paket und eine REST-API-Schnittstelle in zwei Formen, um eine schnelle Integration in bestehende Systeme zu unterstützen. Das Beispiel einer Bildungseinrichtung zeigt, dass es nur 2 Stunden dauert, eine verteilte Bereitstellung von 50 Rechenknoten in einem Campus-Server-Cluster abzuschließen. Diese niedrigschwellige Funktion ermöglicht es der Technologie, schnell in die Arbeitsabläufe der Dokumentendigitalisierung von KMU, Bildungseinrichtungen und Regierungsbehörden einzudringen.
Diese Antwort stammt aus dem ArtikelSmolDocling: ein visuelles Sprachmodell für die effiziente Verarbeitung von Dokumenten in einem kleinen VolumenDie
































