Die folgenden Optimierungsmaßnahmen werden für eine optimale Leistung empfohlen:
- Vorverarbeitung von DokumentenBildauflösung: Stellen Sie die Bildauflösung auf 12 Megapixel (ca. 4000×3000) ein, und legen Sie DPI=200 fest, um ein Gleichgewicht zwischen Qualität und Geschwindigkeit beim Parsen von PDF-Dateien herzustellen.
- Aufgabenspezifische Tipps: Wählen Sie spezifische Eingabeaufforderungen nach Ihren Bedürfnissen aus (z. B.
prompt_layout_only_en
(Erkennung nur des Layouts), um keine Ressourcen für das Parsing mit allen Funktionen zu verschwenden - Konfiguration der StapelverarbeitungMehrseitiges PDF-Parsing hinzugefügt
--num_threads
(empfohlener Wert 64), um die Vorteile von Multi-Core-CPUs voll auszunutzen - Hardware-BeschleunigungEinsatz in einer CUDA 12.x-Umgebung mit vLLM: Die empfohlene Speicherauslastung ist auf 0,95 festgelegt (
--gpu-memory-utilization 0.95
) - Behandlung von AusnahmenSonderzeichen können in den reinen Textalarmmodus umgeschaltet werden, fortlaufende Symbole erfordern eine zusätzliche Reinigung.
Diese Antwort stammt aus dem Artikeldots.ocr: ein vereinheitlichtes visuell-linguistisches Modell für die Analyse von mehrsprachigem DokumentenlayoutDie