Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Kreuzberg ist eine Bibliothek zur Vereinfachung der Textextraktion aus PDF-Dateien, entwickelt, um eine einfache, problemlose Lösung zur Textextraktion zu bieten. Die Bibliothek eignet sich besonders gut für RAG-Dienste (Retrieval-Augmented Generation), die eine Textextraktion erfordern.Kreuzberg unterstützt den lokalen Betrieb, ist einfach zu steuern und kostengünstig. Sie kombiniert eine Vielzahl von Open-Source- und kommerziellen Optionen, um flexible Textextraktionsmöglichkeiten zu bieten.

Kreuzberg:从任何文档中提取文本的开源工具-1

 

Funktionsliste

  • PDF-Text-ExtraktionExtrahieren von Textinhalten aus PDF-Dateien.
  • Bild/PDF OCRTesseract-OCR: Optische Zeichenerkennung von Bildern und PDFs mit Tesseract-OCR.
  • Extraktion von Nicht-PDF-TextPandoc: Extraktion von Text in anderen Formaten über Pandoc.
  • lokaler BetriebUnterstützt lokale Installation und Bedienung, einfache Steuerung und Verwaltung.
  • Quelloffen und kostenlos: Basiert auf der MIT-Lizenz, Open Source, kostenlos.

 

Hilfe verwenden

Einbauverfahren

  1. Installation von Python-Paketen
   pip install kreuzberg
  1. Installation von Systemabhängigkeiten
    • Pandocfür Nicht-PDF-Textextraktion (GPL v2.0-Lizenz, nur als CLI verwendet).
    • Tesseract-OCROCR für Bilder und PDFs (Apache-Lizenz).

Leitlinien für die Verwendung

  1. Grundlegende Verwendung
    • Importieren Sie die Bibliothek und initialisieren Sie sie: python
      from kreuzberg import Kreuzberg
      extractor = Kreuzberg()
    • PDF-Text extrahieren: python
      text = extractor.extract_text('path/to/pdf/file.pdf')
      print(text)
  2. OCR-Funktion
    • OCR eines Bildes oder einer PDF-Datei: python
      ocr_text = extractor.ocr('path/to/image_or_pdf')
      print(ocr_text)
  3. Extraktion von Nicht-PDF-Text
    • Verwenden Sie Pandoc, um Text in anderen Formaten zu extrahieren: python
      other_text = extractor.extract_text('path/to/other/file')
      print(other_text)

Detaillierte Funktionsabläufe

  1. PDF-Text-Extraktion
    • Stellen Sie sicher, dass der Pfad der PDF-Datei korrekt ist.
    • ausnutzenextract_textMethode, um den Text zu extrahieren.
    • Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.
  2. OCR-Funktion
    • Installieren und konfigurieren Sie Tesseract-OCR.
    • ausnutzenocrMethode zur OCR-Verarbeitung von Bildern oder PDFs.
    • OCR-Ergebnisse abrufen und verarbeiten.
  3. Extraktion von Nicht-PDF-Text
    • Installieren und konfigurieren Sie Pandoc.
    • ausnutzenextract_textMethode, um Text in anderen Formaten zu extrahieren.
    • Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.

Durch die oben beschriebenen Schritte können die Benutzer leicht mit Kreuzberg Textextraktionsoperationen beginnen, um eine Vielzahl von Textverarbeitungsanforderungen zu erfüllen.

0Lesezeichen
0Gelobt
🍐 Ente & Birne AI Artikel Smart Writer
Auswahl → Schreiben → Veröffentlichen
Vollautomatisch!
WordPress AI-Schreib-Plugin
Mehr als 500 Inhaltsersteller nutzen
🎯Intelligente AuswahlBatch-Generation: Abschied von der Erschöpfung
🧠Abrufverbesserung: Vernetzung + Wissensbasis mit Tiefgang
VollautomatischSchreiben → Grafik → Veröffentlichung
💎Dauerhaft kostenlosKostenlose Version = Bezahlte Version, unbegrenzt
🔥 Laden Sie das Plugin jetzt kostenlos herunter!
✅ Für immer frei · 🔓 100% Offene Quelle · 🔒 Lokale Speicherung von Daten

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie Schlüsselwörter ein.Zugänglichkeit zur Bing-SucheAI-Tools, finden Sie schnell die AI-Tools auf dieser Website.

Neue Veröffentlichungen

zurück zum Anfang