Derzeitige Position:Abb. Anfang » AI-Werkzeugbibliothek

Kreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen Dokumenten

2025-02-15

2.9 K 3

eine Kopie machen von

Kreuzberg ist eine Bibliothek zur Vereinfachung der Textextraktion aus PDF-Dateien, entwickelt, um eine einfache, problemlose Lösung zur Textextraktion zu bieten. Die Bibliothek eignet sich besonders gut für RAG-Dienste (Retrieval-Augmented Generation), die eine Textextraktion erfordern.Kreuzberg unterstützt den lokalen Betrieb, ist einfach zu steuern und kostengünstig. Sie kombiniert eine Vielzahl von Open-Source- und kommerziellen Optionen, um flexible Textextraktionsmöglichkeiten zu bieten.

Kreuzberg：从任何文档中提取文本的开源工具-1

Funktionsliste

PDF-Text-ExtraktionExtrahieren von Textinhalten aus PDF-Dateien.
Bild/PDF OCRTesseract-OCR: Optische Zeichenerkennung von Bildern und PDFs mit Tesseract-OCR.
Extraktion von Nicht-PDF-TextPandoc: Extraktion von Text in anderen Formaten über Pandoc.
lokaler BetriebUnterstützt lokale Installation und Bedienung, einfache Steuerung und Verwaltung.
Quelloffen und kostenlos: Basiert auf der MIT-Lizenz, Open Source, kostenlos.

Hilfe verwenden

Einbauverfahren

Installation von Python-Paketen：

   pip install kreuzberg

Installation von Systemabhängigkeiten：
- Pandocfür Nicht-PDF-Textextraktion (GPL v2.0-Lizenz, nur als CLI verwendet).
- Tesseract-OCROCR für Bilder und PDFs (Apache-Lizenz).

Leitlinien für die Verwendung

Grundlegende Verwendung：
- Importieren Sie die Bibliothek und initialisieren Sie sie: python from kreuzberg import Kreuzberg extractor = Kreuzberg()
- PDF-Text extrahieren: python text = extractor.extract_text('path/to/pdf/file.pdf') print(text)
OCR-Funktion：
- OCR eines Bildes oder einer PDF-Datei: python ocr_text = extractor.ocr('path/to/image_or_pdf') print(ocr_text)
Extraktion von Nicht-PDF-Text：
- Verwenden Sie Pandoc, um Text in anderen Formaten zu extrahieren: python other_text = extractor.extract_text('path/to/other/file') print(other_text)

Detaillierte Funktionsabläufe

PDF-Text-Extraktion：
- Stellen Sie sicher, dass der Pfad der PDF-Datei korrekt ist.
- ausnutzenextract_textMethode, um den Text zu extrahieren.
- Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.
OCR-Funktion：
- Installieren und konfigurieren Sie Tesseract-OCR.
- ausnutzenocrMethode zur OCR-Verarbeitung von Bildern oder PDFs.
- OCR-Ergebnisse abrufen und verarbeiten.
Extraktion von Nicht-PDF-Text：
- Installieren und konfigurieren Sie Pandoc.
- ausnutzenextract_textMethode, um Text in anderen Formaten zu extrahieren.
- Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.

Durch die oben beschriebenen Schritte können die Benutzer leicht mit Kreuzberg Textextraktionsoperationen beginnen, um eine Vielzahl von Textverarbeitungsanforderungen zu erfüllen.

AI Open-Source-Projekt Extraktion und Reinigung von Dokumenten

KI-Produktivitätswerkzeuge » Kreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen Dokumenten Veröffentlicht am 2025-02-15. Wenn Sie feststellen, dass die URL nicht mehr aktuell oder nicht mehr zugänglich ist, kontaktieren Sie uns bitte.

0Lesezeichen

0Gelobt

Kreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen Dokumenten

Funktionsliste

Hilfe verwenden

Einbauverfahren

Leitlinien für die Verwendung

Detaillierte Funktionsabläufe

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Auswählen → Schreiben → Veröffentlichen, vollautomatisch!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Kreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen Dokumenten

Funktionsliste

Hilfe verwenden

Einbauverfahren

Leitlinien für die Verwendung

Detaillierte Funktionsabläufe

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Auswählen → Schreiben → Veröffentlichen, vollautomatisch!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Schnellabfragestation AI-Tool