Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

OCR

 Enviar site

DeepSeek-OCR: uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto
O DeepSeek-OCR é uma ferramenta de reconhecimento óptico de caracteres (OCR) desenvolvida e de código aberto pelo DeepSeek-AI. Ela propõe uma nova abordagem chamada “Compressão Óptica Contextual”, que repensa a função do codificador visual a partir da perspectiva do Modelo de Linguagem Grande (LLM). A ferramenta não reconhece simplesmente a imagem...
10-25 2.3 K0Recomendado
dots.ocr: um modelo visual-linguístico unificado para análise de layout de documentos multilíngues
O dots.ocr é uma ferramenta avançada de análise de documentos multilíngues, baseada em um modelo visual-linguístico (VLM) de 1,7 bilhão de parâmetros, capaz de detectar layout e reconhecer conteúdo. Ele demonstra desempenho de ponta em benchmarks como o OmniDocBench, destacando-se especialmente na análise de texto, tabela e ordem de leitura...
08-10 7.3 K0Recomendado
SnippAI: uma ferramenta para reconhecer e analisar o conteúdo de capturas de tela usando IA
O Snippai é uma ferramenta de captura de tela baseada em IA projetada para aprimorar a experiência de captura de tela por meio de algoritmos avançados de IA. Ele não apenas captura o conteúdo da tela, mas também analisa e converte de forma inteligente fórmulas, textos, tabelas, imagens etc. na captura de tela. Os usuários podem usar o Snippai para converter informações visuais complexas em formatos editáveis, como fórmulas LaTeX...
08-10 2.2 K0Recomendado
AI Fast Station: uma ferramenta de análise de documentos para comparar modelos de OCR com um clique
O AI Fast Station é uma arena de modelos de OCR de código aberto e gratuito que se concentra na análise inteligente de documentos e imagens. Os usuários podem carregar arquivos PDF ou de imagem e encontrar rapidamente uma solução de análise adequada, comparando sete modelos de OCR convencionais com um clique. O site é compatível com uma ampla variedade de formatos de arquivo, fácil de operar e sem a necessidade de instalações complexas. O AI Fast Station oferece reconhecimento de alta precisão, processamento rápido e segurança...
08-09 2.0 K0Recomendado
Docstrange: uma ferramenta para extrair dados de documentos e imagens e convertê-los em vários formatos
O Docstrange é uma ferramenta de processamento de documentos de código aberto que se concentra em extrair dados de documentos e imagens em vários formatos e convertê-los em formatos como Markdown, JSON, CSV ou HTML. Ele usa inteligência artificial e tecnologia OCR avançada, suporte para processamento de documentos PDF, Word, Exce...
08-04 3.7 K0Recomendado
Guava Intelligent Document Recognition: Ferramenta de reconhecimento inteligente para documentos e formulários off-line
O Guava Intelligent Document Recognition (intelligent_document_recognition) é um software de desktop de código aberto desenvolvido pelo desenvolvedor jiangnanboy, hospedado no GitHub, com foco no reconhecimento inteligente de documentos e formulários de processamento off-line. O software integra o reconhecimento óptico de caracteres (OCR) e a junção de formulários...
07-29 1.7 K0Recomendado
OCRFlux: ferramenta leve para conversão de PDFs e imagens em Markdown
O OCRFlux é uma ferramenta leve e de código aberto voltada para a conversão de arquivos PDF e imagens em um formato Markdown claro. Ela foi desenvolvida pela equipe do ChatDOC, com base em um grande modelo multimodal com 3B parâmetros, e pode ser executada em hardware comum, como a GTX 3090. A ferramenta é excelente para lidar com layouts de documentos complexos,...
07-22 2.6 K0Recomendado
VOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticas
O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para processar documentos acadêmicos e educacionais complexos. Ele pode extrair textos, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar dados estruturados adequados para treinamento de aprendizado de máquina. Oferece suporte a vários idiomas, inclusive inglês...
04-12 2.7 K0Recomendado
Analise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código aberto
Ele analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta é compatível com a funcionalidade OCR e permite converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos: modelo visual (Vision Grid Transfor...
04-09 3.2 K0Recomendado
RolmOCR: modelo de OCR de documentos para reconhecimento de caracteres manuscritos e inclinados
O RolmOCR é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto desenvolvida pela equipe da Reducto AI, com base no modelo de linguagem visual Qwen2.5-VL-7B. Ela pode extrair texto de imagens e arquivos PDF mais rapidamente do que ferramentas semelhantes, como o olmOCR, e ocupa menos memória.
04-07 3.9 K0Recomendado
uniOCR: ferramenta de reconhecimento de texto de código aberto multiplataforma
O uniOCR é uma ferramenta de reconhecimento de texto de código aberto desenvolvida pela equipe mediar-ai. Ela é baseada na linguagem Rust e é compatível com os sistemas macOS, Windows e Linux. Os usuários podem usá-lo para extrair texto de imagens, fácil de operar e gratuito. Os principais recursos do uniOCR são o suporte a várias plataformas...
04-04 2.6 K0Recomendado
PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown
O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pela oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus e-books. A ferramenta é executada por meio de um modelo de IA local e não requer conexão com a Internet, o que protege a privacidade e facilita a operação. Ela...
03-24 3.7 K0Recomendado
SmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volume
O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M, hospedado na plataforma Hugging Face. O SmolDocling é o menor VLM do mundo, com apenas 256 milhões de parâmetros, e sua função principal é...
03-18 3.2 K0Recomendado
Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1
Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas contribuiu profundamente para o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda digital, cada inovação tecnológica expandiu enormemente o escopo de disseminação e a profundidade de aplicação do conhecimento humano, que, por sua vez, tornou-se um terreno fértil para uma nova rodada de inovações...
03-07 3.3 K0Recomendado
Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama
O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que utiliza o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece uma interface de aplicativo da Web Streamlit fácil de usar. Ele oferece suporte a uma ampla variedade de modelos visuais, incluindo...
01-10 6.7 K0Recomendado
STranslate
O STranslate é uma ferramenta de tradução e OCR pronta para uso desenvolvida pela WPF. A ferramenta foi projetada para fornecer tradução eficiente e conveniente e funcionalidade de reconhecimento óptico de caracteres (OCR) para uma ampla variedade de idiomas e tipos de texto. O STranslate é um projeto de código aberto que pode ser baixado e usado gratuitamente pelos usuários e também aceita desenvolvimento personalizado...
12-25 3.0 K0Recomendado
VisionParser: ferramenta de OCR para processamento de alta precisão de recibos e faturas, API disponível
VisionParser是一款专为处理收据和发票而设计的OCR（光学字符识别）工具。通过先进的生成式AI技术，VisionParser能够快速、准确地将各种收据和发票转换为结构化数据，适用于零售、餐饮、B2B服务等多种业务场景。其灵活的AP...
12-18 2.5 K0Recomendado
Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto
O Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). Ela foi desenvolvida pela Lumina AI Inc. e usa modelos visuais avançados para a...
12-13 2.9 K0Recomendado
Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Llama 3.2 Vision gratuita
O Llama OCR é uma biblioteca de OCR (reconhecimento óptico de caracteres) baseada no Llama 3.2 Vision que converte documentos para o formato Markdown. A biblioteca foi desenvolvida pela Nutlope e usa a interface gratuita do Llama 3.2 fornecida pela Together AI para gráficos...
12-11 3.6 K0Recomendado