
OneAIFW: Eine leichtgewichtige Open-Source-Firewall zum Schutz der Privatsphäre von großen Modelldaten
OneAIFW(aifw)是由Funstory.ai开发的一款旨在解决大语言模型(LLM)数据隐私问题的开源工具。在当前的大模型应用中,用户经常需要将包含个人身份信息(PII)或商业机密的文本发送给云端模型(如ChatGPT、Claude等...

AutoForm: KI-Tool, das Daten aus beliebigen Dokumenten extrahiert und Webformulare automatisch ausfüllt
AutoForm是一个使用人工智能技术,旨在将用户从重复的数据复制和粘贴工作中解放出来的工具。 它的核心功能是作为一个“AI数据录入代理”,能够读取和理解多种格式的非结构化文件,例如PDF文档、电子表格、邮件、网页乃至视频等。 AutoFo...

OCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-Tools
OCRmyPDF 是一个开源的命令行工具,专门用于为扫描的PDF文件添加光学字符识别(OCR)文本层,使其变为可搜索、可复制的文档。它基于Python开发,使用Tesseract OCR引擎,能准确识别图像中的文字,并将其嵌入PDF中,保持...

Docstrange: ein Tool zum Extrahieren von Daten aus Dokumenten und Bildern und deren Konvertierung in verschiedene Formate
Docstrange ist ein Open-Source-Dokumentenverarbeitungswerkzeug, das sich auf die Extraktion von Daten aus Dokumenten und Bildern in verschiedenen Formaten und deren Konvertierung in Formate wie Markdown, JSON, CSV oder HTML konzentriert. Es verwendet künstliche Intelligenz und fortschrittliche OCR-Technologie, Unterstützung für die Verarbeitung von PDF, Word-Dokumenten, Exce...

LangExtract: Open-Source-Tool zur Extraktion strukturierter Daten aus Text
LangExtract ist eine von Google entwickelte Open-Source-Python-Bibliothek, die sich auf die Extraktion strukturierter Daten aus unstrukturiertem Text konzentriert. Sie verwendet große Sprachmodelle (LLMs) wie die Google Gemini-Familie, kombiniert mit einer genauen Lokalisierung des Ausgangstextes und interaktiven Visualisierungsfunktionen, um den Nutzern zu helfen, komplexe Texte schnell zu ...

Chat4Data: ein KI-Tool zur Extraktion von Webdaten durch natürliche Sprache
Chat4Data 是一个基于人工智能的 Chrome 浏览器扩展工具,专注于简化网页数据提取。它通过自然语言对话让用户轻松获取网页上的结构化数据,无需编写代码。用户只需用简单的语言描述所需数据,如产品名称、价格或联系方式,Chat4Dat...

ytt-mcp: Server-Tool zum Abrufen und Verarbeiten von Untertiteln für YouTube-Videos
ytt-mcp是一个开源的MCP(模型上下文协议)服务器工具,专门用于从YouTube视频中获取字幕并进行处理。它由cottongeeks团队开发,托管在GitHub上,旨在帮助用户通过简单命令或AI工具快速提取视频字幕,并支持进一步的内容...
WaterCrawl: Umwandlung von Webinhalten in Daten, die für große Modelle verwendet werden können
WaterCrawl ist ein leistungsfähiges Open-Source-Web-Crawler-Tool, das Benutzern helfen soll, Daten aus Webseiten zu extrahieren und sie in ein Datenformat umzuwandeln, das für die Verarbeitung von Large Language Modelling (LLM) geeignet ist. Es basiert auf Python-Entwicklung, kombiniert mit Django, Scrapy und Celery-Technologie, unterstützt effizientes Web-Crawling und Daten...

Delphin
Dolphin 是由 ByteDance 开发的一款开源文档图像解析工具,专注于处理复杂的文档图像,如包含文本、表格、公式和图片的扫描件或 PDF 文件。它采用“先分析后解析”的方法,通过两阶段处理实现高效解析:首先分析文档的页面布局,生成...

OneFileLLM: Integration mehrerer Datenquellen in eine einzige Textdatei
OneFileLLM ist ein Open-Source-Befehlszeilen-Tool, das entwickelt wurde, um mehrere Datenquellen in einer einzigen Textdatei für die einfache Eingabe von Large Language Models (LLMs) zu konsolidieren. Es unterstützt die Verarbeitung von GitHub-Repositories, ArXiv-Papieren, YouTube-Videotranskriptionen, Web-Inhalten, Sci-Hub-Papieren und lokalen Dateien und generiert automatisch die Struktur...

Chatlog: Open-Source-Tool zum Extrahieren und Abfragen von WeChat-Chat-Protokollen
Chatlog ist ein Open-Source-Tool, das sich auf die Extraktion und Abfrage von Chat-Protokollen aus der lokalen Datenbank von WeChat konzentriert. Es unterstützt die WeChat-Versionen 3.x und 4.0 und deckt Windows- und macOS-Systeme ab. Benutzer können über die Befehlszeile, Terminal-Schnittstelle oder HTTP-API arbeiten, um Chat-Protokolle, Kontakte, Gruppenchats und...

DevDocs: ein MCP-Dienst zum schnellen Durchsuchen und Organisieren technischer Dokumentation
DevDocs ist ein völlig kostenloses und quelloffenes Tool, das vom CyberAGI-Team entwickelt und auf GitHub gehostet wird. Es wurde für Programmierer und Softwareentwickler entwickelt, um von der URL eines technischen Dokuments auszugehen, automatisch die relevanten Seiten zu crawlen und sie in prägnanten Markdown- oder JSON-Dateien zu organisieren. Es hat einen eingebauten MCP ...

Mehrere Dateien kostenlos in das Markdown-Format konvertieren, basierend auf Workers AI
serverless-markdown-convertor ist ein kostenloses Open-Source-Tool, das auf Cloudflare Worker und Workers AI basiert und eine breite Palette von Dateien in das Markdown-Format konvertiert. Es unterstützt PDF, Bilder, Office-Dokumente ...

GPT-Crawler: Automatisches Crawlen von Website-Inhalten zur Erzeugung von Wissensdatenbank-Dokumenten
GPT-Crawler ist ein Open-Source-Tool, das vom BuilderIO-Team entwickelt und auf GitHub gehostet wird. Es durchsucht Seiteninhalte durch Eingabe einer oder mehrerer Website-URLs und erzeugt eine strukturierte Wissensdatei (output.json), die zur Erstellung eines benutzerdefinierten GPT- oder KI-Assistenten verwendet werden kann. Benutzer...

pure.md: Fügen Sie "pure.md/" vor der URL ein, um sauberen Text zu extrahieren.
pure.md 是一个为 AI 代理和开发者设计的工具,主打快速将网页内容或文件转为 Markdown 格式。它通过代理服务绕过反爬虫限制,提取网页核心数据,并输出简洁的 Markdown 文件。无论是动态网页、PDF 文件还是社交媒体内容...

Cloudsquid: Dokumente hochladen und Anforderungen für die intelligente Extraktion von strukturierten Daten beschreiben
Cloudsquid 是一家 2023 年成立于德国柏林的公司,专注于用人工智能简化文件处理。它的核心产品是一个在线数据提取平台,用户只需上传 PDF、图片、音频、视频等文件,简单说明需要提取的数据,比如“找出姓名和金额”,AI 就会自动完...

PDF Craft: Gescannte PDF-Dokumente in Markdown umwandeln Open-Source-Tools
PDF Craft 是一个开源工具,专为扫描书籍的PDF设计,能将其转换为Markdown格式。它由 oomol-lab 开发,托管在 GitHub 上,适合喜欢整理电子书的用户。工具通过本地AI模型运行,无需联网,既保护隐私又方便操作。它...

Supametas.AI: Extraktion unstrukturierter Daten in hochverfügbare LLM-Daten
Supametas.AI 是一个数据处理平台,专门把网页、文档、音视频等杂乱信息整理成AI能用的结构化数据。它支持从多个来源收集数据,包括网页链接、API、本地文件等,然后输出为 JSON 或 Markdown 格式。平台无需编程经验,普通...

MarkPDFDown: Konvertierung von PDF in Markdown basierend auf einem multimodalen Modell
MarkPDFDown ist ein Open-Source-Werkzeug. Es verwendet das multimodale große Sprachmodell, um PDF-Dateien in das Markdown-Format zu konvertieren. Entwickelt von GitHub-Benutzer jorben, hat dieses Tool ein einfaches Ziel: PDF-Dokumente einfacher zu bearbeiten und zu teilen. Es erkennt Überschriften, Listen,...
zurück zum Anfang