Lösungen zur Optimierung der Ressourcennutzung
SmolDocling bietet eine dreifache Optimierungslösung für das Problem des Ressourcenengpasses bei der Ausführung visueller Sprachmodelle auf gängigen Geräten:
- Modell LeichtbauweiseVerringert den Speicherbedarf um mehr als 90% im Vergleich zu herkömmlichen VLM-Modellen, indem eine Miniaturarchitektur mit nur 256M Parametern verwendet wird. Der Entwickler behält die hohen Genauigkeitsmerkmale des kleinen Modells durch Wissensdestillationstechniken bei.
- Hardware-Anpassungslösungen1) CPU-Modus: standardmäßig automatische Erkennung der Hardware-Umgebung 2) GPU-Beschleunigung: nach der Installation der CUDA-Version von PyTorch, setzen Sie die
DEVICE = "cuda"die Ressourcen der Grafikkarte abrufen kann 3) Mixed-Precision-Berechnungen: durch dietorch.bfloat1640% Videospeicher speichern - Dynamischer LademechanismusHugging Face: Die inkrementelle Ladetechnik von Hugging Face lädt nur die Modellmodule, die für die aktuelle Verarbeitung benötigt werden, und vermeidet das Laden des gesamten Modells in den Speicher.
Umsetzungsvorschlag: 1) Verwenden Sie bei der Verarbeitung hochauflösender Bilder zunächst dieload_image()Überprüfung des Speicherbedarfs 2) Verwendung der Paging-Ladestrategie für die Stapelverarbeitung 3) Aktivierenflash_attention_2Weitere Reduzierung des GPU-Speicherverbrauchs 50%
Diese Antwort stammt aus dem ArtikelSmolDocling: ein visuelles Sprachmodell für die effiziente Verarbeitung von Dokumenten in einem kleinen VolumenDie































