dots.ocr bietet eine spezielle Lösung für das Problem der Verwechslung der Lesereihenfolge von Dokumenten in gemischten Sprachen oder nicht-lateinischen Sprachen:
- Intelligenter SortieralgorithmusDas Modell verfügt über eine eingebaute Funktion zur Optimierung der Lesereihenfolge, die die Textblöcke automatisch entsprechend den menschlichen Lesegewohnheiten anordnet.
- Vereinheitlichtes Ausgabeformat (UOF)Generierung von standardisierten JSON-strukturierten Daten mit Positions- und Hierarchieinformationen der Elemente
- SprachanpassungAutomatische Anpassung der Parsing-Logik für verschiedene Sprachausrichtungen (z. B. Arabisch von rechts nach links)
- Visuelles DebuggingAusgabe von nummerierten Bounding-Box-Bildern zur visuellen Überprüfung der korrekten Lesereihenfolge.
Es wird empfohlen, die Eingabeaufforderung prompt_layout_all_en zu verwenden, um die vollständigen Layout-Analyseergebnisse zu erhalten.
Diese Antwort stammt aus dem Artikeldots.ocr: ein vereinheitlichtes visuell-linguistisches Modell für die Analyse von mehrsprachigem DokumentenlayoutDie