AutoForm ist ein Tool, das die Technologie der künstlichen Intelligenz nutzt, um Benutzer von sich wiederholenden Kopier- und Einfügeaufgaben zu befreien. Seine Kernfunktion besteht darin, als "KI-Dateneingabe-Agent" zu fungieren, der unstrukturierte Dateien in verschiedenen Formaten wie PDF-Dokumente, Tabellenkalkulationen, E-Mails, Webdateien und...
OCRmyPDF ist ein Open-Source-Befehlszeilen-Tool zum Hinzufügen einer OCR-Textebene (Optical Character Recognition) zu gescannten PDF-Dateien, wodurch diese in durchsuchbare, reproduzierbare Dokumente verwandelt werden. Es basiert auf der Python-Entwicklung, verwendet die Tesseract OCR-Engine, kann den Text im Bild genau identifizieren und in die PDF-Datei einbetten...
Docstrange ist ein Open-Source-Dokumentenverarbeitungswerkzeug, das sich auf die Extraktion von Daten aus Dokumenten und Bildern in verschiedenen Formaten und deren Konvertierung in Formate wie Markdown, JSON, CSV oder HTML konzentriert. Es verwendet künstliche Intelligenz und fortschrittliche OCR-Technologie, Unterstützung für die Verarbeitung von PDF, Word-Dokumenten, Exce...
LangExtract ist eine von Google entwickelte Open-Source-Python-Bibliothek, die sich auf die Extraktion strukturierter Daten aus unstrukturiertem Text konzentriert. Sie verwendet große Sprachmodelle (LLMs) wie die Google Gemini-Familie, kombiniert mit einer genauen Lokalisierung des Ausgangstextes und interaktiven Visualisierungsfunktionen, um den Nutzern zu helfen, komplexe Texte schnell zu ...
MD-TOOL ist ein kostenloses Online-Toolset, das sich auf Konvertierungsdienste zwischen dem Markdown-Format und anderen Dateiformaten konzentriert. Zu den wichtigsten Funktionen dieser Website gehören die Echtzeit-Konvertierung von Markdown-Text in HTML-Code, die Konvertierung von HTML-Code in Markdown-Text und die Konvertierung von Markdown-Dokumenten in...
OCRFlux ist ein quelloffenes, leichtgewichtiges Tool, das sich auf die Konvertierung von PDF-Dateien und Bildern in das klare Markdown-Format konzentriert. Es wurde vom ChatDOC-Team entwickelt, basiert auf einem großen multimodalen Modell mit 3B-Parametern und kann auf gängiger Hardware wie der GTX 3090 laufen. Das Tool zeichnet sich durch die Handhabung komplexer Dokumentenlayouts,...
ytt-mcp ist ein quelloffenes MCP (Model Context Protocol) Server-Tool, das speziell dafür entwickelt wurde, Untertitel aus YouTube-Videos zu übernehmen und zu verarbeiten. Es wurde vom cottongeeks-Team entwickelt und auf GitHub gehostet. Es soll Benutzern helfen, Videountertitel schnell mit einfachen Befehlen oder KI-Tools zu extrahieren und unterstützt weitere...
WaterCrawl ist ein leistungsfähiges Open-Source-Web-Crawler-Tool, das Benutzern helfen soll, Daten aus Webseiten zu extrahieren und sie in ein Datenformat umzuwandeln, das für die Verarbeitung von Large Language Modelling (LLM) geeignet ist. Es basiert auf Python-Entwicklung, kombiniert mit Django, Scrapy und Celery-Technologie, unterstützt effizientes Web-Crawling und Daten...
OneFileLLM ist ein Open-Source-Befehlszeilen-Tool, das entwickelt wurde, um mehrere Datenquellen in einer einzigen Textdatei für die einfache Eingabe von Large Language Models (LLMs) zu konsolidieren. Es unterstützt die Verarbeitung von GitHub-Repositories, ArXiv-Papieren, YouTube-Videotranskriptionen, Web-Inhalten, Sci-Hub-Papieren und lokalen Dateien und generiert automatisch die Struktur...
Chatlog ist ein Open-Source-Tool, das sich auf die Extraktion und Abfrage von Chat-Protokollen aus der lokalen Datenbank von WeChat konzentriert. Es unterstützt die WeChat-Versionen 3.x und 4.0 und deckt Windows- und macOS-Systeme ab. Benutzer können über die Befehlszeile, Terminal-Schnittstelle oder HTTP-API arbeiten, um Chat-Protokolle, Kontakte, Gruppenchats und...
Versatile OCR Program ist ein Open-Source-Tool für die optische Zeichenerkennung (OCR), das für die Verarbeitung komplexer akademischer und pädagogischer Dokumente entwickelt wurde. Es kann Text, Tabellen, mathematische Formeln, Diagramme und Schemata aus PDF-, Bild- und anderen Dokumenten extrahieren und strukturierte Daten erzeugen, die für das Training von maschinellem Lernen geeignet sind. Unterstützt...
DevDocs ist ein völlig kostenloses und quelloffenes Tool, das vom CyberAGI-Team entwickelt und auf GitHub gehostet wird. Es wurde für Programmierer und Softwareentwickler entwickelt, um von der URL eines technischen Dokuments auszugehen, automatisch die relevanten Seiten zu crawlen und sie in prägnanten Markdown- oder JSON-Dateien zu organisieren. Es hat einen eingebauten MCP ...
Es analysiert automatisch das Layout von PDF-Dokumenten, identifiziert Text, Titel, Bilder, Tabellen, Formeln und andere Elemente auf der Seite und bestimmt ihre richtige Reihenfolge. Das Tool unterstützt OCR-Funktionalität, Sie können gescannte PDFs in durchsuchbaren Text umwandeln. Es läuft auf Docker und bietet zwei Modelle: visuelles Modell (Vision Grid ...
serverless-markdown-convertor ist ein kostenloses Open-Source-Tool, das auf Cloudflare Worker und Workers AI basiert und eine breite Palette von Dateien in das Markdown-Format konvertiert. Es unterstützt PDF, Bilder, Office-Dokumente ...
GPT-Crawler ist ein Open-Source-Tool, das vom BuilderIO-Team entwickelt und auf GitHub gehostet wird. Es durchsucht Seiteninhalte durch Eingabe einer oder mehrerer Website-URLs und erzeugt eine strukturierte Wissensdatei (output.json), die zur Erstellung eines benutzerdefinierten GPT- oder KI-Assistenten verwendet werden kann. Benutzer...
pure.md ist ein Tool für KI-Agenten und Entwickler, das sich auf die schnelle Umwandlung von Webinhalten oder Dateien in das Markdown-Format konzentriert. Es umgeht Anti-Crawler-Einschränkungen durch Proxy-Dienste, extrahiert die Kerndaten einer Webseite und gibt eine saubere Markdown-Datei aus. Egal, ob es sich um eine dynamische Webseite, eine PDF-Datei oder eine soziale...
Cloudsquid ist ein 2023 in Berlin gegründetes Unternehmen, das sich auf die Vereinfachung der Dokumentenverarbeitung mit künstlicher Intelligenz konzentriert. Das Kernprodukt ist eine Online-Plattform zur Datenextraktion, die es Nutzern ermöglicht, PDFs, Bilder, Audio, Video usw. hochzuladen und einfach die zu extrahierenden Daten anzugeben, z. B. "Finde den Namen und die...
PDF Craft ist ein Open-Source-Tool, mit dem PDFs von Büchern gescannt und in das Markdown-Format konvertiert werden können. Es wird von oomol-lab entwickelt und auf GitHub für Benutzer gehostet, die ihre eBooks organisieren möchten. Das Tool läuft über ein lokales KI-Modell und benötigt keine Internetverbindung, was die Privatsphäre schützt und die Bedienung erleichtert. ....
Supametas.AI ist eine Datenverarbeitungsplattform, die sich darauf spezialisiert hat, das Durcheinander von Webseiten, Dokumenten, Audio und Video in strukturierte Daten umzuwandeln, die KI nutzen kann. Sie unterstützt das Sammeln von Daten aus verschiedenen Quellen, einschließlich Weblinks, APIs, lokalen Dateien usw., und exportiert sie dann in das JSON- oder Markdown-Format. Die Plattform erfordert keine Programmierung...
zurück zum Anfang