Guava Intelligent Document Recognition (intelligent_document_recognition
) ist eine Open-Source-Desktop-Software des Entwicklers jiangnanboy, die auf GitHub gehostet wird und sich auf die intelligente Erkennung von Dokumenten und Formularen für die Offline-Verarbeitung konzentriert. Die Software integriert Optical Character Recognition (OCR) und Formularstrukturerkennung und benötigt zur Ausführung keine Internetverbindung, um Datenschutz und Sicherheit zu gewährleisten. Benutzer können Text und Tabellen aus Bildern oder PDFs extrahieren und in den Formaten txt, html oder excel speichern. Die Software unterstützt sowohl englische als auch chinesische Benutzeroberflächen, und die neueste Version v2.1 fügt die Erkennung von Screenshots und das Löschen von Bildlisten für eine einfachere Bedienung hinzu. Guava Intelligent Document Recognition eignet sich für private, geschäftliche oder pädagogische Anwender, die mit Dokumenten arbeiten, insbesondere für Szenarien, in denen Daten effizient organisiert werden müssen.
Funktionsliste
- Offline OCR-Erkennung: Extrahieren Sie Text aus Bildern oder PDFs ohne Internetverbindung.
- Erkennung der Formularstruktur: analysiert automatisch den Inhalt des Formulars und gibt ihn im html- oder excel-Format aus.
- Screenshot-Erkennung (v2.1): Mauskästchen für den Bildschirminhalt und Extraktion von Text in Echtzeit.
- Verwaltung der Bilderliste: Unterstützung für das Löschen von Bilddateien in der linken Seitenleiste.
- Ausgabe in mehreren Formaten: Die Erkennungsergebnisse können als txt-, html- oder Excel-Dateien gespeichert werden.
- Chinesische und englische Schnittstelle: Chinesische und englische Versionen sind verfügbar, mit benutzerfreundlicher Bedienoberfläche.
Hilfe verwenden
Einbauverfahren
Guava Smart Document Recognition ist eine Desktop-Software, die heruntergeladen und auf Ihrem lokalen Gerät installiert werden muss. Nachfolgend finden Sie die detaillierten Installationsschritte:
- Software herunterladen
Installationspakete sind in Chinesisch und Englisch erhältlich. Die neueste Version (v2.1) kann über die folgenden Kanäle heruntergeladen werden:- Chinesische Version ::
- Baidu.com:
https://pan.baidu.com/s/1owzG74DLPxq6czEQC7ZNwQ
(Auszug Code: nt3z) - Umarmendes Gesicht:
https://huggingface.co/jiangnanboy/intelligent_document_recognition
- Baidu.com:
- Englische Version ::
- Baidu.com:
https://pan.baidu.com/s/1Cv-hG6fMDUhj9dd3Et1RuA
(Auszug Code: rkrd) - Umarmendes Gesicht:
https://huggingface.co/jiangnanboy/intelligent_document_recognition
Nach dem Herunterladen entpacken Sie die ZIP-Datei in ein lokales Verzeichnis, z. B.C:\guava_document_recognition
.
- Baidu.com:
- Chinesische Version ::
- Installation von Tesseract OCR
Die Software basiert auf der Tesseract OCR-Engine zur Texterkennung. Die Installationsschritte sind wie folgt:- Windows (Computer) : Laden Sie das Installationsprogramm von Tesseract GitHub herunter und installieren Sie es.
- Linux Befehl ausführen
sudo apt-get install tesseract-ocr
. - Mac Befehl ausführen
brew install tesseract
.
Vergewissern Sie sich nach Abschluss der Installation, dass der Pfad zur ausführbaren Tesseract-Datei zu den Systemumgebungsvariablen hinzugefügt wurde (Windows-Benutzer müssen dies manuell konfigurieren).
- Betriebssoftware
Entpacken Sie das Paket und führen Sie es per Doppelklick ausintelligent_document_recognition.exe
(Windows) oder die entsprechende ausführbare Datei. Beim ersten Durchlauf wird das OCR-Modell geladen, was einige Sekunden dauern kann. Wählen Sie nach dem Start der Software die chinesische oder englische Oberfläche (je nach heruntergeladener Version).
Verwendung
Guava Intelligent Document Recognition bietet eine intuitive grafische Oberfläche, die die Bedienung der folgenden Funktionen unterstützt:
- Offline OCR-Erkennung
- Öffnen Sie die Software und klicken Sie auf die Schaltfläche "Datei hochladen", um Bilder (JPG, PNG) oder PDF-Dateien zu importieren.
- Klicken Sie auf die Schaltfläche "OCR-Erkennung", und die Software extrahiert automatisch den Text in der Datei.
- Die Erkennungsergebnisse werden im Textfeld auf der rechten Seite angezeigt und können vom Benutzer bearbeitet oder gespeichert werden als
txt
vielleichthtml
Format:- Klicken Sie auf die Schaltfläche "Speichern", um das Ausgabeformat und den Speicherpfad auszuwählen.
- Beispiel: Laden Sie ein Bild des Protokolls hoch, die Software extrahiert den Text und speichert ihn als
notes.txt
.
- Identifizierung der Formularstruktur
- Laden Sie ein Bild oder eine PDF-Datei hoch, die das Formular enthält.
- Wählen Sie die Option "Formularerkennung", und die Software wird den Inhalt des Formulars automatisch analysieren.
- Die Ergebnisse können gespeichert werden als
html
vielleichtexcel
Format:- Klicken Sie auf die Schaltfläche "Tabelle exportieren", wählen Sie das Format und speichern Sie es.
- Beispiel: Upload von PDF-Bilanz, softwaregeneriert
report.xlsx
Datei, die die vollständigen Tabellendaten enthält.
- Screenshot-Erkennung (Neu in v2.1)
- Klicken Sie auf die Schaltfläche "Screenshot" und die Softwareoberfläche wird automatisch ausgeblendet.
- Verwenden Sie die Maus, um einen Zielbereich auf dem Bildschirm einzurahmen (z. B. eine Webseite oder den Inhalt eines Dokuments).
- Nach dem Loslassen der Maus erkennt die Software den Text im umrahmten Bereich und zeigt ihn im Textfeld an.
- Der Benutzer kann die Ergebnisse bearbeiten oder speichern als
txt
vielleichthtml
. - Beispiel: Kasten mit dem Kursplan auf dem Bildschirm, die Software extrahiert den Text und speichert ihn als
schedule.txt
.
- Verwaltung von Bilderlisten
- In der linken Spalte der Software wird eine Liste der hochgeladenen Bilder angezeigt.
- Wählen Sie die unerwünschten Bilder aus und klicken Sie auf die Schaltfläche "Löschen" oder drücken Sie die
Delete
Taste, um sie zu entfernen. - Diese Funktion eignet sich für die Stapelverarbeitung, um unbrauchbare Dateien zu bereinigen.
- Umschaltung zwischen chinesischem und englischem Interface
- Die Software zeigt je nach heruntergeladener Version eine chinesische oder englische Benutzeroberfläche mit der gleichen Bedienlogik.
- Die chinesische Version zeigt zum Beispiel "File Upload" und die englische Version "Upload File".
- Die Nutzer können je nach Bedarf die passende Sprachversion wählen.
- Stapeldatei
- Platzieren Sie mehrere Bilder oder PDFs in einem bestimmten Ordner in der Software (z. B.
input
(Ordner). - Wählen Sie die Funktion "Batch Recognition", die Software verarbeitet automatisch alle Dateien und speichert die Ergebnisse.
- Die Ausgabedatei wird standardmäßig im Verzeichnis
output
können Sie den Pfad in den Einstellungen ändern.
- Platzieren Sie mehrere Bilder oder PDFs in einem bestimmten Ordner in der Software (z. B.
Konfiguration und Optimierung
- Anpassen des Ausgabeformats : Bearbeiten Sie das Stammverzeichnis der Software
config.ini
Datei, legen Sie das Standardausgabeformat oder den Speicherpfad fest:
[Output]
default_format = txt
save_path = ./output
- Verbesserte Identifizierungsgenauigkeit Vergewissern Sie sich, dass die Eingabedatei klar ist. Bilder mit hoher Auflösung (mindestens 300 DPI) funktionieren am besten. Unscharfe oder qualitativ schlechte Dateien können zu Erkennungsfehlern führen.
- Protokollierung der Fehlersuche Wenn das Identifikationsergebnis ungenau ist, überprüfen Sie die
logs
Protokolldatei in dem Ordner, um die Fehlerursache zu analysieren. - Leistungsoptimierung Bei der Verarbeitung großer Dateien sollten Sie andere ressourcenintensive Programme schließen, um die Verarbeitungsgeschwindigkeit zu erhöhen.
caveat
- Qualität der Dokumente Hochgeladene Bilder oder PDFs müssen klar sein und dürfen nicht verwackelt oder verzerrt sein, um eine genaue Erkennung zu gewährleisten.
- Kompatibilität des Systems Die Software wird von Windows, Linux und Mac unterstützt und erfordert eine ordnungsgemäße Installation von Tesseract OCR.
- Datensicherheit Die Software läuft komplett offline, und die Daten werden nicht in die Cloud hochgeladen, so dass sie sich für den Umgang mit sensiblen Informationen eignet.
- Aktualisierte Software Schauen Sie einfach regelmäßig auf Baidu.com oder Hugging Face nach, um die neueste Version herunterzuladen und den Ordner mit der alten Version zu überschreiben.
- Kontakt zum Support Wenn Sie Fragen haben, kontaktieren Sie bitte den Entwickler über die öffentliche Nummer "Guava AI" auf WeChat.
Anwendungsszenario
- Verwaltung von Unternehmensdokumenten
Geschäftsanwender laden gescannte Verträge, Rechnungen oder Auszüge hoch, extrahieren Texte und Tabellen und erstellen schnell bearbeitbare Dokumente, um die Effizienz im Büro zu steigern. - Unterstützung der akademischen Forschung
Forscher verarbeiten PDF-Dateien von wissenschaftlichen Arbeiten, extrahieren wichtige Texte oder Tabellen und organisieren sie in Text- oder Excel-Dateien für eine einfache Datenanalyse. - Zusammenstellung von Bildungsressourcen
Lehrkräfte laden gescannte Kopien von Klassenarbeiten oder Lehrbüchern hoch, extrahieren Themen oder Tabelleninhalte, organisieren Unterrichtsmaterialien und unterstützen den Offline-Betrieb. - Persönliche Effizienzverbesserung
Mit der Screenshot-Funktion können Benutzer schnell Text vom Bildschirm extrahieren, z. B. Besprechungsprotokolle oder Webinhalte, und ihn als bearbeitbare Datei speichern.
QA
- Benötigt Guava Intelligent Document Recognition eine Internetverbindung?
Die Software läuft komplett offline und die Datenverarbeitung erfolgt lokal, um den Datenschutz und die Sicherheit zu gewährleisten. - Welche Dateiformate werden unterstützt?
JPG, PNG, PDF und andere Formate werden unterstützt, wobei hochauflösende Dateien zur besseren Erkennung empfohlen werden. - Wie gehe ich mit falsch erkanntem Text um?
Überprüfen Sie die Klarheit der Eingabedatei oder passen Sie die OCR-Empfindlichkeit in den Software-Einstellungen an. Wenn das Problem nicht behoben ist, wenden Sie sich an den Entwickler, um eine Rückmeldung zu erhalten. - Unterstützt die Formularerkennung komplexe Formulare?
Unterstützung für reguläre Tabellen, komplexe verschachtelte Tabellen können eine Vorverarbeitung der Bilder erfordern, um die Genauigkeit zu verbessern. - Wie kann ich auf die neueste Version aktualisieren?
Laden Sie v2.1 von Baidu.com oder Hugging Face herunter, entpacken Sie es und überschreiben Sie den Ordner der alten Version.