Zugang aus Übersee: www.kdjingpai.com

Ctrl + D Lesezeichen für diese Seite

OCR

 Website einreichen

DeepSeek-OCR: Ein Open-Source-Werkzeug für die optische Zeichenerkennung (OCR)
DeepSeek-OCR ist ein optisches Zeichenerkennungswerkzeug (OCR), das von DeepSeek-AI entwickelt und als Open Source zur Verfügung gestellt wird. Es schlägt einen neuen Ansatz namens “Contextual Optical Compression” vor, der die Rolle des visuellen Codierers aus der Perspektive des Large Language Model (LLM) neu überdenkt. Das Werkzeug erkennt nicht einfach die ...
10-25 2.3 K0Gelobt
dots.ocr: ein vereinheitlichtes visuell-linguistisches Modell für die Analyse von mehrsprachigem Dokumentenlayout
dots.ocr ist ein leistungsfähiges, mehrsprachiges Dokument-Parsing-Tool, das auf einem visuell-linguistischen Modell (VLM) mit 1,7 B Parametern basiert und sowohl Layout-Erkennung als auch Inhaltserkennung beherrscht. Es zeigt in Benchmarks wie OmniDocBench die beste Leistung, insbesondere beim Parsen von Text, Tabellen und Lesereihenfolge...
08-10 7.3 K0Gelobt
SnippAI: Ein Tool zur Erkennung und Analyse von Screenshot-Inhalten mithilfe von KI
Snippai ist ein KI-basiertes Screenshot-Tool, das durch fortschrittliche KI-Algorithmen das Screenshot-Erlebnis verbessern soll. Es erfasst nicht nur Bildschirminhalte, sondern analysiert und konvertiert auch auf intelligente Weise Formeln, Text, Tabellen, Bilder usw. im Screenshot. Benutzer können mit Snippai komplexe visuelle Informationen in editierbare Formate wie LaTeX-Formeln umwandeln...
08-10 2.2 K0Gelobt
AI Fast Station: ein Tool zum Parsen von Dokumenten für den Vergleich von OCR-Modellen mit einem Klick
AI Fast Station ist eine kostenlose Open-Source-OCR-Modellarena, die sich auf das intelligente Parsing von Dokumenten und Bildern konzentriert. Benutzer können PDF- oder Bilddateien hochladen und durch den Vergleich von sieben gängigen OCR-Modellen mit einem Klick schnell eine geeignete Parsing-Lösung finden. Die Website unterstützt eine breite Palette von Formatdateien, einfach zu bedienen, ohne komplexe Installation.AI Fast Station bietet hochpräzise Erkennung, schnelle Verarbeitung und Sicherheit...
08-09 2.0 K0Gelobt
Docstrange: ein Tool zum Extrahieren von Daten aus Dokumenten und Bildern und deren Konvertierung in verschiedene Formate
Docstrange ist ein Open-Source-Dokumentenverarbeitungswerkzeug, das sich auf die Extraktion von Daten aus Dokumenten und Bildern in verschiedenen Formaten und deren Konvertierung in Formate wie Markdown, JSON, CSV oder HTML konzentriert. Es verwendet künstliche Intelligenz und fortschrittliche OCR-Technologie, Unterstützung für die Verarbeitung von PDF, Word-Dokumenten, Exce...
08-04 3.7 K0Gelobt
Guava Intelligent Document Recognition: Intelligentes Erkennungsprogramm für Offline-Dokumente und Formulare
Guava Intelligent Document Recognition (intelligent_document_recognition) ist eine Open-Source-Desktop-Software, die vom Entwickler jiangnanboy entwickelt wurde und auf GitHub gehostet wird und sich auf die intelligente Erkennung von offline zu verarbeitenden Dokumenten und Formularen konzentriert. Die Software integriert Optical Character Recognition (OCR) und Formularverknüpfung...
07-29 1.7 K0Gelobt
OCRFlux: Leichtes Tool zur Konvertierung von PDFs und Bildern in Markdown
OCRFlux ist ein quelloffenes, leichtgewichtiges Tool, das sich auf die Konvertierung von PDF-Dateien und Bildern in das klare Markdown-Format konzentriert. Es wurde vom ChatDOC-Team entwickelt, basiert auf einem großen multimodalen Modell mit 3B-Parametern und kann auf gängiger Hardware wie der GTX 3090 laufen. Das Tool zeichnet sich durch die Handhabung komplexer Dokumentenlayouts,...
07-22 2.6 K0Gelobt
VOP: OCR-Tool zum Extrahieren komplexer Diagramme und mathematischer Formeln
Versatile OCR Program ist ein Open-Source-Tool für die optische Zeichenerkennung (OCR), das für die Verarbeitung komplexer akademischer und pädagogischer Dokumente entwickelt wurde. Es kann Text, Tabellen, mathematische Formeln, Diagramme und Schemata aus PDF-, Bild- und anderen Dokumenten extrahieren und strukturierte Daten erzeugen, die sich für das Training von maschinellem Lernen eignen. Unterstützt mehrere Sprachen, einschließlich Englisch...
04-12 2.7 K0Gelobt
Automatisches Parsen von PDF-Inhalten und Extrahieren von Text und Tabellen von Open-Source-Diensten
Es analysiert automatisch das Layout von PDF-Dokumenten, identifiziert Text, Titel, Bilder, Tabellen, Formeln und andere Elemente auf der Seite und bestimmt ihre richtige Reihenfolge. Das Tool unterstützt OCR-Funktionalität, Sie können gescannte PDFs in durchsuchbaren Text umwandeln. Es läuft auf Docker und bietet zwei Modelle: visuelles Modell (Vision Grid Transfor...
04-09 3.2 K0Gelobt
RolmOCR: Dokument-OCR-Modell zur Erkennung von handgeschriebenen und schrägen Schriftzeichen
RolmOCR ist ein Open-Source-Tool zur optischen Zeichenerkennung (OCR), das vom Reducto AI-Team entwickelt wurde und auf dem visuellen Sprachmodell Qwen2.5-VL-7B basiert. Es kann Text aus Bildern und PDF-Dateien schneller als ähnliche Tools extrahieren olmOCR, geringerer Speicherbedarf.RolmOCR...
04-07 3.9 K0Gelobt
uniOCR: plattformübergreifendes Open-Source-Tool zur Texterkennung
uniOCR ist ein Open-Source-Tool zur Texterkennung, das vom mediar-ai-Team entwickelt wurde. Es basiert auf der Sprache Rust und unterstützt macOS, Windows und Linux Systeme. Benutzer können es verwenden, um Text aus Bildern zu extrahieren, einfach zu bedienen und kostenlos. uniOCRs Kernfunktionen sind plattformübergreifende Unterstützung...
04-04 2.6 K0Gelobt
PDF Craft: Gescannte PDF-Dokumente in Markdown umwandeln Open-Source-Tools
PDF Craft ist ein Open-Source-Tool, mit dem PDFs von Büchern gescannt und in das Markdown-Format konvertiert werden können. Es wird von oomol-lab entwickelt und auf GitHub für Benutzer gehostet, die ihre E-Books organisieren möchten. Das Tool läuft über ein lokales KI-Modell und benötigt keine Internetverbindung, was die Privatsphäre schützt und die Bedienung erleichtert. Es...
03-24 3.7 K0Gelobt
SmolDocling: ein visuelles Sprachmodell für die effiziente Verarbeitung von Dokumenten in einem kleinen Volumen
SmolDocling ist ein Visual Language Model (VLM), das vom ds4sd-Team in Zusammenarbeit mit IBM entwickelt wurde. Es basiert auf SmolVLM-256M und wird auf der Hugging Face-Plattform gehostet. SmolDocling ist das kleinste VLM der Welt mit nur 256M Parametern, und seine Kernfunktion ist...
03-18 3.2 K0Gelobt
Mistral OCR: 94,89% Gesamtgenauigkeit, 1000 Seiten/30 Sekunden, nur $1
In der langen Geschichte der menschlichen Zivilisation hat jeder Sprung in der Art und Weise, wie Informationen erworben und analysiert werden, tiefgreifend zum sozialen Fortschritt beigetragen. Von den antiken Hieroglyphen über den tragbaren Papyrus bis hin zur späteren Entwicklung des Buchdrucks und der heutigen digitalen Welle hat jede technologische Innovation den Umfang der Verbreitung und die Tiefe der Anwendung des menschlichen Wissens erheblich erweitert, was wiederum zum Nährboden für eine neue Runde von Innovationen wurde...
03-07 3.3 K0Gelobt
Ollama OCR: Extrahieren von Text aus Bildern mithilfe visueller Modelle in Ollama
Ollama OCR ist ein leistungsstarkes Toolkit für die optische Zeichenerkennung (OCR), das das hochmoderne visuelle Sprachmodell der Ollama-Plattform nutzt, um Text aus Bildern zu extrahieren. Das Projekt ist sowohl als Python-Paket verfügbar als auch mit einer benutzerfreundlichen Streamlit-Webanwendungsschnittstelle. Es unterstützt eine breite Palette von visuellen Modellen, einschließlich...
01-10 6.7 K0Gelobt
STranslate
STranslate ist ein gebrauchsfertiges Übersetzungs- und OCR-Tool, das von WPF entwickelt wurde. Das Tool wurde entwickelt, um eine effiziente und bequeme Übersetzung und optische Zeichenerkennung (OCR) Funktionalität für eine breite Palette von Sprachen und Texttypen zu bieten.STranslate ist ein Open-Source-Projekt, das kostenlos für Benutzer zum Download und zur Verwendung ist, und akzeptiert auch kundenspezifische Entwicklung...
12-25 3.0 K0Gelobt
VisionParser: OCR-Tool für die hochpräzise Verarbeitung von Belegen und Rechnungen, API verfügbar
VisionParser是一款专为处理收据和发票而设计的OCR（光学字符识别）工具。通过先进的生成式AI技术，VisionParser能够快速、准确地将各种收据和发票转换为结构化数据，适用于零售、餐饮、B2B服务等多种业务场景。其灵活的AP...
12-18 2.5 K0Gelobt
Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet
Chunkr ist eine selbst gehostete API zur Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in Daten, die für die Verwendung in RAG (Retrieval Augmented Generation) und LLM (Large Language Modelling) geeignet sind. Es wurde von Lumina AI Inc. entwickelt und verwendet fortschrittliche visuelle Modelle für...
12-13 2.9 K0Gelobt
Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet
Llama OCR ist eine OCR-Bibliothek (Optical Character Recognition), die auf Llama 3.2 Vision basiert und Dokumente in das Markdown-Format konvertiert. Die Bibliothek wurde von Nutlope entwickelt und verwendet die kostenlose Llama 3.2-Schnittstelle, die von Together AI für...
12-11 3.6 K0Gelobt