dots.ocr bietet effiziente Lösungen auf der Grundlage eines einheitlichen visuell-linguistischen Modells (VLM) mit 1,7 B Parametern, das hinsichtlich Effizienz und Genauigkeit optimiert wurde:
- Ein-Modell-ArchitekturVerwendung eines einzigen Modells für die komplette Layout-Erkennung und die Erkennung von Inhalten, wodurch der Leistungsverlust der herkömmlichen Pipeline mit mehreren Modellen vermieden wird
- Cue Switching TechnologieWechseln Sie die Aufgaben, indem Sie die Eingabeaufforderung (z.B. prompt_ocr oder prompt_layout_only_en) ändern, ohne das Modell neu zu laden!
- Mehrsprachige OptimierungEingebaute Unterstützung für 100 Sprachen, speziell optimiert für ressourcenarme Sprachen, um ein genaues Parsing zu gewährleisten.
- schnelle InferenzKompaktes Modelldesign erreicht SOTA-Leistung in OmniDocBench-Benchmarks, empfohlener vLLM-Einsatz für optimale Inferenzgeschwindigkeit
Diese Antwort stammt aus dem Artikeldots.ocr: ein vereinheitlichtes visuell-linguistisches Modell für die Analyse von mehrsprachigem DokumentenlayoutDie