
dots.ocr: um modelo visual-linguístico unificado para análise de layout de documentos multilíngues
O dots.ocr é uma ferramenta avançada de análise de documentos multilíngues, baseada em um modelo visual-linguístico (VLM) de 1,7 bilhão de parâmetros, capaz de detectar layout e reconhecer conteúdo. Ele demonstra desempenho de ponta em benchmarks como o OmniDocBench, destacando-se especialmente na análise de texto, tabela e ordem de leitura...

SnippAI: uma ferramenta para reconhecer e analisar o conteúdo de capturas de tela usando IA
O Snippai é uma ferramenta de captura de tela baseada em IA projetada para aprimorar a experiência de captura de tela por meio de algoritmos avançados de IA. Ele não apenas captura o conteúdo da tela, mas também analisa e converte de forma inteligente fórmulas, textos, tabelas, imagens etc. na captura de tela. Os usuários podem usar o Snippai para converter informações visuais complexas em formatos editáveis, como fórmulas LaTeX...

AI Fast Station: uma ferramenta de análise de documentos para comparar modelos de OCR com um clique
O AI Fast Station é uma arena de modelos de OCR de código aberto e gratuito que se concentra na análise inteligente de documentos e imagens. Os usuários podem carregar arquivos PDF ou de imagem e encontrar rapidamente uma solução de análise adequada, comparando sete modelos de OCR convencionais com um clique. O site é compatível com uma ampla variedade de formatos de arquivo, fácil de operar e sem a necessidade de instalações complexas. O AI Fast Station oferece reconhecimento de alta precisão, processamento rápido e segurança...

OCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código aberto
O OCRmyPDF é uma ferramenta de linha de comando de código aberto projetada para adicionar uma camada de texto de reconhecimento óptico de caracteres (OCR) a arquivos PDF digitalizados, transformando-os em documentos pesquisáveis e reproduzíveis. Ele se baseia no desenvolvimento em Python e usa o mecanismo de OCR Tesseract, podendo identificar com precisão o texto na imagem e incorporado ao PDF, mantendo ...

Docstrange: uma ferramenta para extrair dados de documentos e imagens e convertê-los em vários formatos
O Docstrange é uma ferramenta de processamento de documentos de código aberto que se concentra em extrair dados de documentos e imagens em vários formatos e convertê-los em formatos como Markdown, JSON, CSV ou HTML. Ele usa inteligência artificial e tecnologia OCR avançada, suporte para processamento de documentos PDF, Word, Exce...

Guava Intelligent Document Recognition: Ferramenta de reconhecimento inteligente para documentos e formulários off-line
O Guava Intelligent Document Recognition (intelligent_document_recognition) é um software de desktop de código aberto desenvolvido pelo desenvolvedor jiangnanboy, hospedado no GitHub, com foco no reconhecimento inteligente de documentos e formulários de processamento off-line. O software integra o reconhecimento óptico de caracteres (OCR) e a junção de formulários...

OCRFlux: ferramenta leve para conversão de PDFs e imagens em Markdown
O OCRFlux é uma ferramenta leve e de código aberto voltada para a conversão de arquivos PDF e imagens em um formato Markdown claro. Ela foi desenvolvida pela equipe do ChatDOC, com base em um grande modelo multimodal com 3B parâmetros, e pode ser executada em hardware comum, como a GTX 3090. A ferramenta é excelente para lidar com layouts de documentos complexos,...

VOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticas
O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para processar documentos acadêmicos e educacionais complexos. Ele pode extrair textos, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar dados estruturados adequados para treinamento de aprendizado de máquina. Oferece suporte a vários idiomas, inclusive inglês...

Analise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código aberto
Ele analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta é compatível com a funcionalidade OCR e permite converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos: modelo visual (Vision Grid Transfor...

Bob.
O Bob é um software de tradução e OCR (Optical Character Recognition, reconhecimento óptico de caracteres) desenvolvido para a plataforma macOS. Os usuários podem usar o Bob para operações de tradução e OCR em qualquer aplicativo, com suporte a uma ampla variedade de serviços de tradução, incluindo Volcano, Tencent, Ali, Baidu, Youdao, Apple, Google, Microsoft,...

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama
O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que utiliza o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece uma interface de aplicativo da Web Streamlit fácil de usar. Ele oferece suporte a uma ampla variedade de modelos visuais, incluindo...

Doc2X
O Doc2X é uma poderosa ferramenta de reconhecimento e conversão de fórmulas de imagens de documentos, comprometida em fornecer soluções eficientes e inteligentes de processamento de documentos. Quer se trate de um trabalho de pesquisa acadêmica, livros didáticos, documentos corporativos ou relatórios financeiros, o Doc2X pode identificar com precisão formulários e fórmulas em PDF e convertê-los em Word, LaTeX, HTML,...

STranslate
O STranslate é uma ferramenta de tradução e OCR pronta para uso desenvolvida pela WPF. A ferramenta foi projetada para fornecer tradução eficiente e conveniente e funcionalidade de reconhecimento óptico de caracteres (OCR) para uma ampla variedade de idiomas e tipos de texto. O STranslate é um projeto de código aberto que pode ser baixado e usado gratuitamente pelos usuários e também aceita desenvolvimento personalizado...

Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Llama 3.2 Vision gratuita
O Llama OCR é uma biblioteca de OCR (reconhecimento óptico de caracteres) baseada no Llama 3.2 Vision que converte documentos para o formato Markdown. A biblioteca foi desenvolvida pela Nutlope e usa a interface gratuita do Llama 3.2 fornecida pela Together AI para gráficos...

Easydict
O Easydict é um aplicativo de tradução de dicionário simples e elegante desenvolvido para usuários do macOS. Com suporte para vários serviços de tradução e reconhecimento de OCR off-line, ele torna a localização de palavras ou a tradução de textos fácil e elegante. O Easydict funciona imediatamente e oferece suporte à tradução de entrada, tradução de traços e tradução de captura de tela para uma experiência conveniente de tradução em vários idiomas. ...

Datalab: modelo de IA de reconhecimento de OCR dedicado, PDF para Markdown (código aberto/API)
O Datalab oferece uma variedade de modelos avançados de IA com foco em OCR, análise de layout, PDF para Markdown e muito mais. Esses modelos não são apenas de alto desempenho, mas também fáceis de usar e de código aberto. Os modelos Marker da plataforma podem converter PDF em Markdown com rapidez e precisão, incluindo tabelas e fórmulas.

TTime
O TTime, um projeto publicado no GitHub pelo InkTimeRecord, é um software de tradução simples e eficiente. O TTime é um software de tradução simples e eficiente, que oferece principalmente funções de tradução de entrada, captura de tela, traço e hoverball, além de oferecer suporte a várias fontes de tradução e serviços de reconhecimento de texto, para que os usuários possam fazer rapidamente a conversão de idiomas e o reconhecimento de texto. Além disso, o TTime também tem...
voltar ao topo