
SmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volume
O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M, hospedado na plataforma Hugging Face. O SmolDocling é o menor VLM do mundo, com apenas 256 milhões de parâmetros, e sua função principal é...

Flying Paddle PP-TableMagic: extração de informações estruturadas para tabelas complexas
O objetivo do reconhecimento de tabelas é analisar tabelas em imagens, identificar com precisão as estruturas das tabelas e os locais das células e reduzi-las a formatos de tabelas estruturadas (por exemplo, HTML). Na atual era da informação, uma grande quantidade de dados tabulares importantes ainda existe em um estado não estruturado (por exemplo, imagens de tabelas estatísticas em documentos digitalizados, tabelas estatísticas em relatórios financeiros em PDF etc.), que não podem ser...

Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1
Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas contribuiu profundamente para o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda digital, cada inovação tecnológica expandiu enormemente o escopo de disseminação e a profundidade de aplicação do conhecimento humano, que, por sua vez, tornou-se um terreno fértil para uma nova rodada de inovações...

Servidor MCP Firecrawl: Serviço MCP de rastreador da Web baseado no Firecrawl
O Firecrawl MCP Server é uma ferramenta de código aberto desenvolvida pela MendableAI, baseada na implementação do protocolo Model Context Protocol (MCP), integrada à API do Firecrawl para fornecer rastreamento avançado da Web e extração de dados. Ele é especializado em ...

par_scrape: uma ferramenta de rastreamento para extração inteligente de dados da Web
O par_scrape é uma ferramenta de rastreamento da Web de código aberto baseada em Python, lançada no GitHub pelo desenvolvedor Paul Robello, criada para ajudar os usuários a extrair dados de páginas da Web de forma inteligente. Ele integra o Selenium e o Playwright, dois poderosos sistemas de automação de navegador...

PDF-Extract-Kit: Extraia a estrutura complexa do conteúdo do PDF da ferramenta de código aberto
O PDF-Extract-Kit é um projeto de código aberto desenvolvido pela equipe do OpenDataLab, com foco na extração eficiente de conteúdo de alta qualidade de documentos PDF complexos e diversos. Ele integra tecnologia avançada de análise de documentos, suporte para detecção de layout, reconhecimento de fórmulas, extração de tabelas e OCR e outras funções, adequado para trabalhos acadêmicos, pesquisas ...

Crawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLM
O Crawl4LLM é um projeto de código-fonte aberto desenvolvido em conjunto pela Universidade de Tsinghua e pela Universidade Carnegie Mellon, com foco na otimização da eficiência do rastreamento da Web para o pré-treinamento de modelos grandes (LLM). Ele reduz significativamente o rastreamento ineficaz por meio da seleção inteligente de dados de páginas da Web de alta qualidade, alegando ser capaz de reduzir a carga de trabalho da necessidade original de rastrear 100 páginas da Web para 21, mantendo o efeito de pré-treinamento...

Markdownify MCP Server: converte vários conteúdos no formato Markdown com base no protocolo MCP.
O Markdownify MCP Server é uma ferramenta de código aberto baseada no Model Context Protocol, hospedada no GitHub e criada pelo desenvolvedor Zach Caceres. Ele se concentra na combinação de vários tipos de arquivos (por exemplo, PDF, imagens, áudio...

CodeWeaver: gere automaticamente documentos Markdown a partir da estrutura e do conteúdo do código.
O CodeWeaver é uma ferramenta de linha de comando projetada para tecer uma base de código em um documento Markdown único e fácil de navegar. Ele gera uma representação estruturada da hierarquia de arquivos de um projeto, examinando recursivamente os diretórios e incorporando o conteúdo de cada arquivo em blocos de código. A ferramenta foi projetada com o objetivo de simplificar o compartilhamento da base de código e a extração de informações, e é especialmente adequada para...

Kreuzberg: ferramenta de código aberto para extrair texto de qualquer documento
Kreuzberg é uma biblioteca para simplificar a extração de texto de arquivos PDF, projetada para fornecer uma solução de extração de texto simples e sem complicações. A biblioteca é especialmente adequada para serviços RAG (Retrieval-Augmented Generation) que requerem extração de texto.Kreuzberg suporta operação local, controle fácil...

Instrutor: uma biblioteca Python para simplificar fluxos de trabalho de saída estruturada para grandes modelos de linguagem
O Instructor é uma biblioteca Python popular projetada para processar a saída estruturada de modelos de linguagem grande (LLMs). Criada com base no Pydantic, ela fornece uma API simples, transparente e fácil de usar para gerenciar a validação de dados, novas tentativas e respostas de streaming.

zChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70B
O zChunk é uma nova estratégia de fragmentação desenvolvida pela ZeroEntropy para fornecer uma solução para a fragmentação semântica genérica. A estratégia se baseia no modelo Llama-70B e otimiza o processo de fragmentação de um documento, solicitando a geração de fragmentações e garantindo a manutenção de uma alta relação sinal-ruído durante a recuperação de informações. zChunk é especialmente adequado para RAs que exigem recuperação de alta precisão de...

Pulse: Soluções de negócios para processamento de documentos e extração de dados
O Pulse é uma plataforma inteligente voltada para o processamento de documentos e a extração de dados, projetada para ajudar as empresas e os desenvolvedores a analisar e processar com eficiência uma ampla variedade de documentos complexos. Por meio de suas tecnologias avançadas de visão computacional e de processamento multimodal, o Pulse é capaz de extrair com precisão dados estruturados de documentos em uma variedade de formatos, incluindo texto, imagens, tabelas e muito mais. A plataforma suporta uma ampla gama de aplicativos do setor...

Rowfill: extração em lote de informações estruturadas de documentos e análise automatizada
O Rowfill é uma plataforma de processamento de documentos de código aberto projetada para profissionais do conhecimento. Ele usa tecnologias avançadas de IA para extrair, analisar e processar dados de documentos, imagens e PDFs complexos. O Rowfill oferece suporte a modelos nativos de linguagem grande (LLM) e modelos visuais OpenAI para garantir a privacidade e a segurança dos dados. A plataforma oferece alta...

PPTX2MD: ferramenta especial para converter arquivos PPTX em Markdown
O PPTX2MD é uma ferramenta de código aberto projetada para converter arquivos PPTX do PowerPoint para o formato Markdown. Desenvolvida pelo usuário do GitHub ssine, a ferramenta suporta a retenção de títulos, listas, formatação de texto (como negrito, itálico, cores e hiperlinks), imagens e tabelas, entre outros formatos.

Repomix: empacotamento da base de código em um arquivo de texto para recuperação de modelos grandes
O Repomix (anteriormente conhecido como Repopack) é uma ferramenta de código aberto projetada para empacotar toda uma base de código em um único arquivo compatível com IA. Essa ferramenta permite que os desenvolvedores disponibilizem facilmente sua base de código para análise e processamento por grandes modelos de linguagem, como Claude, ChatGPT e Gemini. Ela foi originalmente projetada para ...

Yek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandes
O Yek é uma ferramenta rápida baseada em Rust para ler arquivos de texto de repositórios ou diretórios, dividi-los em pedaços e serializá-los para uso em modelos de linguagem grandes (LLMs). A ferramenta usa a regra .gitignore por padrão para ignorar arquivos desnecessários e usa o histórico do Git para inferir arquivos importantes.

LlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas gratuitas por dia).
O LlamaParse é uma poderosa ferramenta de análise de documentos que pode processar documentos complexos, como PDF, PowerPoint, Word e planilhas, e convertê-los em dados estruturados. O LlamaParse oferece várias maneiras de usá-lo, incluindo uma API REST autônoma, pacotes Python,...

UnDatas.IO: serviço de API para análise precisa de vários tipos de dados não estruturados (pago)
A UnDatas.IO é uma plataforma voltada para a análise e o processamento de dados não estruturados. Ela utiliza tecnologia avançada para identificar automaticamente layouts de documentos e categorizar tabelas, imagens, fórmulas e textos, simplificando bastante o processo de processamento de dados. A plataforma não só economiza muito tempo na organização dos dados, mas também ajuda os usuários a extrair insights valiosos dos dados e a fazer mais...
voltar ao topo