Die vLLM-Implementierung bringt erhebliche Leistungssteigerungen für dots.ocr:
- Begründung BeschleunigungDie PagedAttention-Technologie von vLLM optimiert die Speichernutzung und ermöglicht die Verarbeitung von 1,7 B parametrischen Modellen mit hohem Durchsatz auf einer einzigen GPU-Karte.
- Servitierte Unterstützung: durch
vllm serve
um den API-Dienst zur einfachen Integration in die Dokumentenverarbeitungspipeline des Unternehmens zu starten. - Optimierung der Ressourcennutzung: Parameter
--gpu-memory-utilization 0.95
kann die Nutzung der GPU-Ressourcen maximieren, während die--tensor-parallel-size
Unterstützt Multi-Card-Erweiterung.
Verglichen mit der nativen HuggingFace-Darstellung kann die vLLM-Version Stapeldokumente 2-3 Mal schneller verarbeiten, was sich besonders für Szenarien eignet, die ein Echtzeit-Parsing erfordern. Bei der Bereitstellung ist es wichtig, den Schritt der Registrierung eines benutzerdefinierten Modells bei vLLM zu beachten (durch Modifizierung dermodeling_dots_ocr_vllm
).
Diese Antwort stammt aus dem Artikeldots.ocr: ein vereinheitlichtes visuell-linguistisches Modell für die Analyse von mehrsprachigem DokumentenlayoutDie