Bewährte Praktiken für API-Aufrufe
Um eine effiziente und stabile Textextraktion zu erreichen, müssen die folgenden technischen Schlüsselpunkte beachtet werden:
- Vorverarbeitung der DatenBilder sollten in Graustufen umgewandelt und geschärft werden, PDF sollte zuerst in das PNG-Format umgewandelt werden. base64-Kodierung, achten Sie darauf, den richtigen MIME-Typ-Header hinzuzufügen.
- Optimierung der Parameter::
- Die Temperatur wird auf 0,2-0,5 eingestellt, um ein Gleichgewicht zwischen Genauigkeit und Gleichmäßigkeit zu erreichen.
- max_tokens entsprechend der Länge des Dokuments angepasst, das allgemeine A4-Dokument auf 3072 genug gesetzt!
- StapeldateiImplementierung einer asynchronen Anforderungswarteschlange zur Steuerung der Gleichzeitigkeit ≤ 4 (abhängig vom GPU-Grafikspeicher). Beispielcode:
from concurrent.futures import ThreadPoolExecutor
with ThreadPoolExecutor(max_workers=4) as executor:
results = list(executor.map(ocr_page_with_rolm, img_base64_list))
Tipp zur Leistungsoptimierung: Bei mehrseitigen Dokumenten empfiehlt es sich, die kontinuierliche Stapelverarbeitung von vLLM zu aktivieren, die den Durchsatz um das Dreifache steigern kann. Achten Sie auf die Überwachung der API-Antwortzeit, bei mehr als 2 Sekunden muss die Auslastung des Dienstes überprüft werden.
Diese Antwort stammt aus dem ArtikelRolmOCR: Dokument-OCR-Modell zur Erkennung von handgeschriebenen und schrägen SchriftzeichenDie