Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Dolphin ist ein von ByteDance entwickeltes Open-Source-Werkzeug zur Analyse von Dokumentenbildern, das sich auf die Verarbeitung von komplexen Dokumentenbildern, wie Text, Tabellen, Formeln und Bildern mit gescannten oder PDF-Dateien konzentriert. Es verwendet einen "analyse first, parse later"-Ansatz, um ein effizientes Parsing durch einen zweistufigen Prozess zu erreichen: Zuerst wird das Seitenlayout des Dokuments analysiert, um eine Abfolge von Elementen in einer natürlichen Lesereihenfolge zu generieren; dann werden die Dokumentenelemente unter Verwendung heterogener Anker und aufgabenspezifischer Hinweise parallel geparst.Dolphin zeigt gute Leistungen bei einer Vielzahl von Parsing-Aufgaben auf Seiten- und Elementebene. Dolphin zeichnet sich durch eine breite Palette von Parsing-Aufgaben auf Seiten- und Elementebene aus, wobei es eine leichtgewichtige Architektur mit effizienter Leistung verbindet. Das Tool wurde auf der ACL 2025 vorgestellt, und für Entwickler stehen vortrainierte Modelle und Inferenzcode zur Verfügung. Der Code und die Modelle sind über ein GitHub-Repository sowie eine Online-Demo verfügbar.

Delfin-1

 

Funktionsliste

  • Seitenlayout-Analyse: Identifiziert automatisch Text, Tabellen, Formeln und Bilder in einem Dokument und ordnet die Elemente in einer natürlichen Lesereihenfolge an.
  • Paralleles Element-Parsing: Effiziente Verarbeitung verschiedener Arten von Dokumentenelementen unter Verwendung heterogener Anker und aufgabenspezifischer Hinweise.
  • Unterstützung für multimodale Eingaben: Verarbeitung komplexer Dokumentbilder, die Text, Bilder, Tabellen und Formeln enthalten.
  • Bereitstellung von vortrainierten Modellen: Benutzer können vortrainierte Modelle herunterladen und sie direkt für Schlussfolgerungen oder sekundäre Entwicklungen verwenden.
  • Open-Source-Unterstützung: Detaillierter Code und Dokumentation werden bereitgestellt, um Entwickler bei der Anpassung und Erweiterung der Funktionalität zu unterstützen.
  • Online-Demoplattform: Benutzer können den Parsing-Effekt online über Demo-Dolphin testen.

 

Hilfe verwenden

Einbauverfahren

Um Dolphin zu verwenden, müssen die Benutzer zunächst den Code und das trainierte Modell von einem GitHub-Repository oder Hugging Face herunterladen. Nachfolgend finden Sie die detaillierten Schritte zur Installation und Verwendung:

  1. Vorbereitung der Umwelt
    Dolphin setzt eine Python-Umgebung voraus, empfohlen wird Python 3.8 oder höher. Die Benutzer müssen die folgenden Abhängigkeitspakete installieren:

    pip install torch torchvision
    pip install git-lfs
    

    Stellen Sie sicher, dass Sie Git und Git LFS auf Ihrem System installiert haben, um große Modelldateien herunterladen zu können.

  2. Code und Modelle herunterladen
    Auf den Code und die Modelle von Dolphin kann auf folgende Weise zugegriffen werden:

    • Herunterladen von Code von GitHub::
      git clone https://github.com/bytedance/Dolphin
      cd Dolphin
      
    • Modelle von Hugging Face herunterladen::
      git lfs install
      git clone https://huggingface.co/ByteDance/Dolphin ./hf_model
      

      Oder verwenden Sie das Hugging Face CLI:

      huggingface-cli download ByteDance/Dolphin --local-dir ./hf_model
      
    • Modelldateien können auch von Baidu Yun oder Google Drive heruntergeladen und in der ./checkpoints Ordner.
  3. Konfiguration der Umgebung
    Nachdem Sie den Code heruntergeladen haben, wechseln Sie in das Projektverzeichnis und überprüfen Sie ./config/Dolphin.yaml Konfigurationsdatei, um sicherzustellen, dass die Modellpfade und -parameter korrekt sind. Die Konfigurationsdatei enthält die Modellarchitektur und die Inferenzeinstellungen, die vom Benutzer nach Bedarf angepasst werden können.
  4. Validierung der Laufzeitumgebung
    Führen Sie nach Abschluss der Installation den folgenden Befehl aus, um die Umgebung zu überprüfen:

    python -m demo_element.py --help
    

    Wenn der Befehl die Hilfeinformationen normal ausgibt, ist die Konfiguration der Umgebung erfolgreich.

Verwendung

Dolphin bietet eine Befehlszeilenschnittstelle, die die Verarbeitung von Einzeldokumenten erleichtert. Hier erfahren Sie, wie Sie die wichtigsten Funktionen nutzen können:

  1. Verarbeitung einzelner Formularbilder
    Um ein Bild, das eine Tabelle enthält, zu analysieren, führen Sie den folgenden Befehl aus:

    python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/table_1.jpeg --element_type table
    

    Dieser Befehl analysiert das Tabellenbild, extrahiert den Tabelleninhalt und erzeugt eine strukturierte Ausgabe. Die Ausgabe erfolgt in der Regel im JSON-Format und enthält die Zeilen, Spalten und Zellen der Tabelle.

  2. Verarbeitung von Formelbildern
    Für Matheformel-Bilder, laufen:

    python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula
    

    Dolphin erkennt den Inhalt der Formel und konvertiert ihn in das LaTeX-Format, um ihn weiter zu bearbeiten oder wiederzugeben.

  3. Verarbeitung von Textabsatzbildern
    Um einen Textabsatz zu analysieren, führen Sie aus:

    python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/para_1.jpg --element_type text
    

    extrahiert den Textinhalt unter Beibehaltung der Absatzstruktur und Formatierung.

  4. Online-Demo
    Wenn Sie nicht lokal bereitstellen möchten, können Sie die Demo-Dolphin-Plattform besuchen (Link im GitHub-Repository). Laden Sie ein Bild des Dokuments auf die Plattform hoch, wählen Sie den Elementtyp (z. B. Tabelle, Text oder Formel) und sehen Sie sich die Parsing-Ergebnisse an. Die Plattform ist für schnelle Tests geeignet und erfordert keine Konfiguration der Umgebung.

Featured Function Bedienung

  • Analyse des SeitenlayoutsDolphin scannt zunächst das gesamte Dokumentbild, identifiziert die Elemente auf der Seite (z. B. Überschriften, Absätze, Tabellen usw.) und ordnet sie in natürlicher Lesereihenfolge an. Diese Methode eignet sich für die Verarbeitung komplexer Dokumente, um zu vermeiden, dass Elemente in der falschen Reihenfolge erkannt werden.
  • paralleles ParsenDolphin verwendet heterogene Anker, um verschiedenen Elementtypen (z. B. Tabellen, Formeln) spezifische Hinweise zuzuweisen, so dass mehrere Elemente gleichzeitig geparst werden können und die Effizienz erheblich gesteigert wird.
  • Leichte ArchitekturIm Vergleich zu anderen Dokumenten-Parsing-Modellen ist das Dolphin-Modell kleiner und schneller in der Argumentation, so dass es sich für die Ausführung auf Geräten mit eingeschränkten Ressourcen eignet.

caveat

  • Stellen Sie sicher, dass das Eingangsbild klar ist; unscharfe oder niedrig aufgelöste Bilder können die Auflösung beeinträchtigen.
  • Bei umfangreichen Dokumenten empfiehlt es sich, sie in Stücken zu verarbeiten und die Bilder seitenweise hochzuladen, um die Genauigkeit zu verbessern.
  • Wenn Sie Probleme beim Laden des Modells haben, überprüfen Sie die ./checkpoints Die Modelldateien im Ordner sind vollständig.
  • In der README-Datei auf dem GitHub-Repository finden Sie die neuesten Konfigurationsanweisungen und FAQs.

 

Anwendungsszenario

  1. Bearbeitung akademischer Forschungsdokumente
    Forscher können Dolphin verwenden, um gescannte akademische Dokumente zu analysieren und Formeln, Tabellen und Textinhalte zu extrahieren. Sie können zum Beispiel PDF-Dokumente in strukturierte Daten für die weitere Analyse oder Archivierung umwandeln.
  2. Digitalisierung von Unternehmensdokumenten
    Unternehmen können mit Dolphin gescannte Papierverträge, Berichte oder Rechnungen in bearbeitbare digitale Formate umwandeln. Die automatische Extraktion von Formularen und Text verbessert die Effizienz der Dateneingabe erheblich.
  3. Zusammenstellung von Bildungsressourcen
    Lehrer und Schüler können Dolphin zum Parsen von Formeln und Diagrammen in Lehrmaterialien verwenden. Konvertieren Sie zum Beispiel gescannte Seiten eines Mathematiklehrbuchs in das LaTeX-Format für den Online-Unterricht oder für Notizen.
  4. Dateiverwaltung
    Archivare können mit Dolphin gescannte historische Dokumente verarbeiten, Schlüsselinformationen extrahieren und strukturierte Daten für eine einfache Archivierung und Wiederauffindung erzeugen.

 

QA

  1. Welche Arten von Dokumentenelementen werden von Dolphin unterstützt?
    Dolphin unterstützt das Parsing von Text, Tabellen, Formeln und Bildern. Es kann Bilder komplexer Dokumente verarbeiten, die diese Elemente enthalten, z. B. gescannte PDF-Dateien oder Fotos.
  2. Wie lässt sich die Parsing-Genauigkeit verbessern?
    Verwenden Sie hochauflösende, klare Bilder als Eingabe. Achten Sie darauf, dass der Hintergrund des Dokuments einfach ist, und vermeiden Sie zu viele ablenkende Elemente. Bei umfangreichen Dokumenten wird eine seitenweise Verarbeitung empfohlen.
  3. Ist Dolphin kostenlos?
    Ja, Dolphin ist ein Open-Source-Tool, das unter der MIT-Lizenz veröffentlicht wird. Die Benutzer können den Code und die Modelle herunterladen und sie frei verwenden oder verändern.
  4. Benötigen Sie starke Hardware-Unterstützung?
    Dank seiner leichtgewichtigen Architektur kann Dolphin auch auf normalen Computern ausgeführt werden, zur Beschleunigung des Denkens wird jedoch ein Grafikprozessor empfohlen. Die Mindestkonfiguration ist 8 GB RAM und 4 GB Videospeicher.
  5. Wie erhalte ich die neuesten Updates?
    Verfolgen Sie das GitHub-Repository (https://github.com/bytedance/Dolphin) oder die Hugging Face-Seite, um die neuesten Code-, Modell- und Dokumentations-Updates zu erhalten.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch