Hintergrund des Themas
Gescannte PDF-Dokumente weisen häufig eine schlechte Bildqualität auf, was zu OCR-Erkennungsfehlern führt und die Datenextraktion beeinträchtigt.
Verschreibung
- Aktivieren der erweiterten OCR-KonfigurationParsing-Option: Wählen Sie in der Parsing-Option die entsprechende Sprache des Dokuments aus (unterstützt mehrere Sprachen, z. B. Chinesisch/Englisch).
- Vorverarbeitete BildqualitätEs wird empfohlen, eine Auflösung von 300 dpi oder höher einzustellen, um sicherzustellen, dass der Text klar ist.
- Verwendung spezifischer Parsing-AnweisungenHinweis auf Schwerpunktbereiche durch natürlichsprachliche Hinweise
"优先识别文档第二页的表格内容,忽略页眉页脚"
- Benutzerdefinierte Parsing-ParameterKontrast- und Helligkeitsschwellenwerte für eine bessere Erkennung einstellen
- Nachbearbeitungs-ValidierungErkennung: Festlegung von Prüfregeln für Schlüsselfelder und automatische Kennzeichnung von Erkennungsergebnissen mit geringer Zuverlässigkeit.
bestes Verfahren
Es wird empfohlen, die Web-UI zu verwenden, um das einseitige Dokument zunächst zu testen und die optimalen Parameter vor der Stapelverarbeitung zu ermitteln. Wenn Sie auf spezielle Schriftarten stoßen, können Sie Muster für die Modellfeinabstimmung hochladen.
Diese Antwort stammt aus dem ArtikelLlamaParse: Hochwertiges Dokumenten-Parsing und Datenextraktionsdienst von Llamaindex (1000 kostenlose Seiten pro Tag).Die