dots.ocr bietet professionelle Lösungen für Parsing-Fehler, die durch aufeinanderfolgende Sonderzeichen (z.B. ... oder _) in Dokumenten verursacht werden:
- Gezielte Prompting-StrategiePrompts: Verwenden Sie spezielle Prompts wie prompt_layout_only_en oder prompt_ocr, um Störungen durch Sonderzeichen zu vermeiden.
- Empfehlungen für die VorverarbeitungDPI: Setzen Sie das Bild vor dem Parsen auf 200 und die Auflösung auf 11289600 Pixel.
- Filterung der ErgebnisseWählen Sie die Option, die Datei demo_image1_nohf.md zu erzeugen, um Kopf- und Fußzeilen und andere störende Inhalte automatisch zu filtern.
- Boundary Box Feinabstimmung: Geben Sie die Parsing-Region mit dem Parameter -bbox an, um bekannte Konzentrationen von Sonderzeichen zu vermeiden.
Durch die Kombination dieser Maßnahmen kann die Parsing-Genauigkeit von Dokumenten, die Sonderzeichen enthalten, erheblich verbessert werden.
Diese Antwort stammt aus dem Artikeldots.ocr: ein vereinheitlichtes visuell-linguistisches Modell für die Analyse von mehrsprachigem DokumentenlayoutDie