Zugang aus Übersee: www.kdjingpai.com

Ctrl + D Lesezeichen für diese Seite

Extraktion und Reinigung von Dokumenten

 Website einreichen

AutoForm: KI-Tool, das Daten aus beliebigen Dokumenten extrahiert und Webformulare automatisch ausfüllt
AutoForm ist ein Tool, das die Technologie der künstlichen Intelligenz nutzt, um Benutzer von sich wiederholenden Kopier- und Einfügeaufgaben zu befreien. Seine Kernfunktion besteht darin, als “KI-Dateneingabe-Agent” zu fungieren, der unstrukturierte Dateien in verschiedenen Formaten lesen und verstehen kann, z. B. PDF-Dokumente, Tabellenkalkulationen, E-Mails, Webseiten und sogar Videos. AutoFo...
08-22 1.6 K0Gelobt
OCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-Tools
OCRmyPDF ist ein Open-Source-Befehlszeilen-Tool zum Hinzufügen einer OCR-Textebene (Optical Character Recognition) zu gescannten PDF-Dateien, wodurch sie in durchsuchbare, reproduzierbare Dokumente verwandelt werden. Es basiert auf Python-Entwicklung, mit der Tesseract OCR-Engine, kann genau den Text im Bild zu identifizieren und in der PDF eingebettet, halten ...
08-04 8.0 K0Gelobt
Docstrange: ein Tool zum Extrahieren von Daten aus Dokumenten und Bildern und deren Konvertierung in verschiedene Formate
Docstrange ist ein Open-Source-Dokumentenverarbeitungswerkzeug, das sich auf die Extraktion von Daten aus Dokumenten und Bildern in verschiedenen Formaten und deren Konvertierung in Formate wie Markdown, JSON, CSV oder HTML konzentriert. Es verwendet künstliche Intelligenz und fortschrittliche OCR-Technologie, Unterstützung für die Verarbeitung von PDF, Word-Dokumenten, Exce...
08-04 3.7 K0Gelobt
LangExtract: Open-Source-Tool zur Extraktion strukturierter Daten aus Text
LangExtract ist eine von Google entwickelte Open-Source-Python-Bibliothek, die sich auf die Extraktion strukturierter Daten aus unstrukturiertem Text konzentriert. Sie verwendet große Sprachmodelle (LLMs) wie die Google Gemini-Familie, kombiniert mit einer genauen Lokalisierung des Ausgangstextes und interaktiven Visualisierungsfunktionen, um den Nutzern zu helfen, komplexe Texte schnell zu ...
07-31 4.1 K0Gelobt
MD-TOOL: Kostenloses Online-Konvertierungstool für Markdown
MD-TOOL ist ein kostenloses Online-Toolset, das sich auf Konvertierungsdienste zwischen dem Markdown-Format und anderen Dateiformaten konzentriert. Zu den wichtigsten Funktionen dieser Website gehören die Echtzeit-Konvertierung von Markdown-Text in HTML-Code, die Konvertierung von HTML-Code in Markdown-Text und die Konvertierung von Markdown-Dokumenten in...
07-28 1.4 K0Gelobt
OCRFlux: Leichtes Tool zur Konvertierung von PDFs und Bildern in Markdown
OCRFlux ist ein quelloffenes, leichtgewichtiges Tool, das sich auf die Konvertierung von PDF-Dateien und Bildern in das klare Markdown-Format konzentriert. Es wurde vom ChatDOC-Team entwickelt, basiert auf einem großen multimodalen Modell mit 3B-Parametern und kann auf gängiger Hardware wie der GTX 3090 laufen. Das Tool zeichnet sich durch die Handhabung komplexer Dokumentenlayouts,...
07-22 2.6 K0Gelobt
ytt-mcp: Server-Tool zum Abrufen und Verarbeiten von Untertiteln für YouTube-Videos
ytt-mcp ist ein quelloffenes MCP (Model Context Protocol) Server-Tool, das speziell dafür entwickelt wurde, Untertitel aus YouTube-Videos zu übernehmen und zu verarbeiten. Entwickelt vom cottongeeks-Team und gehostet auf GitHub, soll es Benutzern helfen, schnell Videountertitel mit einfachen Befehlen oder KI-Tools zu extrahieren und weitere Inhalte zu unterstützen...
07-22 1.8 K0Gelobt
WaterCrawl: Umwandlung von Webinhalten in Daten, die für große Modelle verwendet werden können
WaterCrawl ist ein leistungsfähiges Open-Source-Web-Crawler-Tool, das Benutzern helfen soll, Daten aus Webseiten zu extrahieren und sie in ein Datenformat umzuwandeln, das für die Verarbeitung von Large Language Modelling (LLM) geeignet ist. Es basiert auf Python-Entwicklung, kombiniert mit Django, Scrapy und Celery-Technologie, unterstützt effizientes Web-Crawling und Daten...
07-18 2.3 K1Gelobt
OneFileLLM: Integration mehrerer Datenquellen in eine einzige Textdatei
OneFileLLM ist ein Open-Source-Befehlszeilen-Tool, das entwickelt wurde, um mehrere Datenquellen in einer einzigen Textdatei für die einfache Eingabe von Large Language Models (LLMs) zu konsolidieren. Es unterstützt die Verarbeitung von GitHub-Repositories, ArXiv-Papieren, YouTube-Videotranskriptionen, Web-Inhalten, Sci-Hub-Papieren und lokalen Dateien und generiert automatisch die Struktur...
04-18 2.4 K0Gelobt
Chatlog: Open-Source-Tool zum Extrahieren und Abfragen von WeChat-Chat-Protokollen
Chatlog ist ein Open-Source-Tool, das sich auf die Extraktion und Abfrage von Chat-Protokollen aus der lokalen Datenbank von WeChat konzentriert. Es unterstützt die WeChat-Versionen 3.x und 4.0 und deckt Windows- und macOS-Systeme ab. Benutzer können über die Befehlszeile, Terminal-Schnittstelle oder HTTP-API arbeiten, um Chat-Protokolle, Kontakte, Gruppenchats und...
04-12 1.0 W0Gelobt
VOP: OCR-Tool zum Extrahieren komplexer Diagramme und mathematischer Formeln
Versatile OCR Program ist ein Open-Source-Tool für die optische Zeichenerkennung (OCR), das für die Verarbeitung komplexer akademischer und pädagogischer Dokumente entwickelt wurde. Es kann Text, Tabellen, mathematische Formeln, Diagramme und Schemata aus PDF-, Bild- und anderen Dokumenten extrahieren und strukturierte Daten erzeugen, die sich für das Training von maschinellem Lernen eignen. Unterstützt mehrere Sprachen, einschließlich Englisch...
04-12 2.7 K0Gelobt
DevDocs: ein MCP-Dienst zum schnellen Durchsuchen und Organisieren technischer Dokumentation
DevDocs ist ein völlig kostenloses und quelloffenes Tool, das vom CyberAGI-Team entwickelt und auf GitHub gehostet wird. Es wurde für Programmierer und Softwareentwickler entwickelt, um von der URL eines technischen Dokuments auszugehen, automatisch die relevanten Seiten zu crawlen und sie in prägnanten Markdown- oder JSON-Dateien zu organisieren. Es hat einen eingebauten MCP ...
04-09 2.9 K0Gelobt
Automatisches Parsen von PDF-Inhalten und Extrahieren von Text und Tabellen von Open-Source-Diensten
Es analysiert automatisch das Layout von PDF-Dokumenten, identifiziert Text, Titel, Bilder, Tabellen, Formeln und andere Elemente auf der Seite und bestimmt ihre richtige Reihenfolge. Das Tool unterstützt OCR-Funktionalität, Sie können gescannte PDFs in durchsuchbaren Text umwandeln. Es läuft auf Docker und bietet zwei Modelle: visuelles Modell (Vision Grid Transfor...
04-09 3.2 K0Gelobt
Mehrere Dateien kostenlos in das Markdown-Format konvertieren, basierend auf Workers AI
serverless-markdown-convertor ist ein kostenloses Open-Source-Tool, das auf Cloudflare Worker und Workers AI basiert und eine breite Palette von Dateien in das Markdown-Format konvertiert. Es unterstützt PDF, Bilder, Office-Dokumente ...
03-30 2.6 K0Gelobt
GPT-Crawler: Automatisches Crawlen von Website-Inhalten zur Erzeugung von Wissensdatenbank-Dokumenten
GPT-Crawler ist ein Open-Source-Tool, das vom BuilderIO-Team entwickelt und auf GitHub gehostet wird. Es durchsucht Seiteninhalte durch Eingabe einer oder mehrerer Website-URLs und erzeugt eine strukturierte Wissensdatei (output.json), die zur Erstellung eines benutzerdefinierten GPT- oder KI-Assistenten verwendet werden kann. Benutzer...
03-29 3.7 K0Gelobt
pure.md: Fügen Sie "pure.md/" vor der URL ein, um sauberen Text zu extrahieren.
pure.md ist ein Tool für KI-Agenten und Entwickler, das sich auf die schnelle Umwandlung von Webinhalten oder Dateien in das Markdown-Format konzentriert. Es umgeht Anti-Crawler-Einschränkungen durch Proxy-Dienste, extrahiert die Kerndaten einer Webseite und gibt eine saubere Markdown-Datei aus. Egal, ob es sich um eine dynamische Webseite, eine PDF-Datei oder einen Social-Media-Inhalt handelt...
03-25 2.6 K0Gelobt
Cloudsquid: Dokumente hochladen und Anforderungen für die intelligente Extraktion von strukturierten Daten beschreiben
Cloudsquid ist ein 2023 in Berlin, Deutschland, gegründetes Unternehmen, das sich auf die Nutzung künstlicher Intelligenz zur Vereinfachung der Dokumentenverarbeitung konzentriert. Das Kernprodukt ist eine Online-Plattform zur Datenextraktion, die es Nutzern ermöglicht, PDFs, Bilder, Audio- und Videodateien usw. hochzuladen und einfach die zu extrahierenden Daten anzugeben, z. B. “Finde den Namen und den Betrag heraus”, und die KI wird automatisch...
03-25 2.3 K0Gelobt
PDF Craft: Gescannte PDF-Dokumente in Markdown umwandeln Open-Source-Tools
PDF Craft ist ein Open-Source-Tool, mit dem PDFs von Büchern gescannt und in das Markdown-Format konvertiert werden können. Es wird von oomol-lab entwickelt und auf GitHub für Benutzer gehostet, die ihre E-Books organisieren möchten. Das Tool läuft über ein lokales KI-Modell und benötigt keine Internetverbindung, was die Privatsphäre schützt und die Bedienung erleichtert. Es...
03-24 3.7 K0Gelobt
Supametas.AI: Extraktion unstrukturierter Daten in hochverfügbare LLM-Daten
Supametas.AI ist eine Datenverarbeitungsplattform, die sich darauf spezialisiert hat, das Durcheinander von Webseiten, Dokumenten, Audio und Video in strukturierte Daten umzuwandeln, die KI nutzen kann. Sie unterstützt das Sammeln von Daten aus verschiedenen Quellen, einschließlich Weblinks, APIs, lokalen Dateien usw., und gibt sie dann im JSON- oder Markdown-Format aus. Die Plattform erfordert keine Programmiererfahrung, und gewöhnliche...
03-24 2.6 K0Gelobt