Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

extração de dados

 Enviar site

SmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volume
O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M, hospedado na plataforma Hugging Face. O SmolDocling é o menor VLM do mundo, com apenas 256 milhões de parâmetros, e sua função principal é...
3.2 Katravés (como em "através do trem")0Recomendado
0Marcado
Flying Paddle PP-TableMagic: extração de informações estruturadas para tabelas complexas
O objetivo do reconhecimento de tabelas é analisar tabelas em imagens, identificar com precisão as estruturas das tabelas e os locais das células e reduzi-las a formatos de tabelas estruturadas (por exemplo, HTML). Na atual era da informação, uma grande quantidade de dados tabulares importantes ainda existe em um estado não estruturado (por exemplo, imagens de tabelas estatísticas em documentos digitalizados, tabelas estatísticas em relatórios financeiros em PDF etc.), que não podem ser...
3.0 Katravés (como em "através do trem")0Recomendado
0Marcado
Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1
Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas contribuiu profundamente para o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda digital, cada inovação tecnológica expandiu enormemente o escopo de disseminação e a profundidade de aplicação do conhecimento humano, que, por sua vez, tornou-se um terreno fértil para uma nova rodada de inovações...
3.4 Katravés (como em "através do trem")0Recomendado
0Marcado
Servidor MCP Firecrawl: Serviço MCP de rastreador da Web baseado no Firecrawl
O Firecrawl MCP Server é uma ferramenta de código aberto desenvolvida pela MendableAI, baseada na implementação do protocolo Model Context Protocol (MCP), integrada à API do Firecrawl para fornecer rastreamento avançado da Web e extração de dados. Ele é especializado em ...
4.1 Katravés (como em "através do trem")0Recomendado
0Marcado
par_scrape: uma ferramenta de rastreamento para extração inteligente de dados da Web
O par_scrape é uma ferramenta de rastreamento da Web de código aberto baseada em Python, lançada no GitHub pelo desenvolvedor Paul Robello, criada para ajudar os usuários a extrair dados de páginas da Web de forma inteligente. Ele integra o Selenium e o Playwright, dois poderosos sistemas de automação de navegador...
2.4 Katravés (como em "através do trem")0Recomendado
0Marcado
PDF-Extract-Kit: Extraia a estrutura complexa do conteúdo do PDF da ferramenta de código aberto
O PDF-Extract-Kit é um projeto de código aberto desenvolvido pela equipe do OpenDataLab, com foco na extração eficiente de conteúdo de alta qualidade de documentos PDF complexos e diversos. Ele integra tecnologia avançada de análise de documentos, suporte para detecção de layout, reconhecimento de fórmulas, extração de tabelas e OCR e outras funções, adequado para trabalhos acadêmicos, pesquisas ...
4.1 Katravés (como em "através do trem")0Recomendado
0Marcado
Crawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLM
O Crawl4LLM é um projeto de código-fonte aberto desenvolvido em conjunto pela Universidade de Tsinghua e pela Universidade Carnegie Mellon, com foco na otimização da eficiência do rastreamento da Web para o pré-treinamento de modelos grandes (LLM). Ele reduz significativamente o rastreamento ineficaz por meio da seleção inteligente de dados de páginas da Web de alta qualidade, alegando ser capaz de reduzir a carga de trabalho da necessidade original de rastrear 100 páginas da Web para 21, mantendo o efeito de pré-treinamento...
2.6 Katravés (como em "através do trem")0Recomendado
0Marcado
Markdownify MCP Server: converte vários conteúdos no formato Markdown com base no protocolo MCP.
O Markdownify MCP Server é uma ferramenta de código aberto baseada no Model Context Protocol, hospedada no GitHub e criada pelo desenvolvedor Zach Caceres. Ele se concentra na combinação de vários tipos de arquivos (por exemplo, PDF, imagens, áudio...
3.4 Katravés (como em "através do trem")0Recomendado
0Marcado
CodeWeaver: gere automaticamente documentos Markdown a partir da estrutura e do conteúdo do código.
O CodeWeaver é uma ferramenta de linha de comando projetada para tecer uma base de código em um documento Markdown único e fácil de navegar. Ele gera uma representação estruturada da hierarquia de arquivos de um projeto, examinando recursivamente os diretórios e incorporando o conteúdo de cada arquivo em blocos de código. A ferramenta foi projetada com o objetivo de simplificar o compartilhamento da base de código e a extração de informações, e é especialmente adequada para...
2.2 Katravés (como em "através do trem")0Recomendado
0Marcado
Kreuzberg: ferramenta de código aberto para extrair texto de qualquer documento
Kreuzberg é uma biblioteca para simplificar a extração de texto de arquivos PDF, projetada para fornecer uma solução de extração de texto simples e sem complicações. A biblioteca é especialmente adequada para serviços RAG (Retrieval-Augmented Generation) que requerem extração de texto.Kreuzberg suporta operação local, controle fácil...
2.9 Katravés (como em "através do trem")0Recomendado
0Marcado
Instrutor: uma biblioteca Python para simplificar fluxos de trabalho de saída estruturada para grandes modelos de linguagem
O Instructor é uma biblioteca Python popular projetada para processar a saída estruturada de modelos de linguagem grande (LLMs). Criada com base no Pydantic, ela fornece uma API simples, transparente e fácil de usar para gerenciar a validação de dados, novas tentativas e respostas de streaming.
3.3 Katravés (como em "através do trem")0Recomendado
0Marcado
zChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70B
O zChunk é uma nova estratégia de fragmentação desenvolvida pela ZeroEntropy para fornecer uma solução para a fragmentação semântica genérica. A estratégia se baseia no modelo Llama-70B e otimiza o processo de fragmentação de um documento, solicitando a geração de fragmentações e garantindo a manutenção de uma alta relação sinal-ruído durante a recuperação de informações. zChunk é especialmente adequado para RAs que exigem recuperação de alta precisão de...
2.1 Katravés (como em "através do trem")0Recomendado
0Marcado
Pulse: Soluções de negócios para processamento de documentos e extração de dados
O Pulse é uma plataforma inteligente voltada para o processamento de documentos e a extração de dados, projetada para ajudar as empresas e os desenvolvedores a analisar e processar com eficiência uma ampla variedade de documentos complexos. Por meio de suas tecnologias avançadas de visão computacional e de processamento multimodal, o Pulse é capaz de extrair com precisão dados estruturados de documentos em uma variedade de formatos, incluindo texto, imagens, tabelas e muito mais. A plataforma suporta uma ampla gama de aplicativos do setor...
2.4 Katravés (como em "através do trem")0Recomendado
0Marcado
Rowfill: extração em lote de informações estruturadas de documentos e análise automatizada
O Rowfill é uma plataforma de processamento de documentos de código aberto projetada para profissionais do conhecimento. Ele usa tecnologias avançadas de IA para extrair, analisar e processar dados de documentos, imagens e PDFs complexos. O Rowfill oferece suporte a modelos nativos de linguagem grande (LLM) e modelos visuais OpenAI para garantir a privacidade e a segurança dos dados. A plataforma oferece alta...
2.4 Katravés (como em "através do trem")0Recomendado
0Marcado
PPTX2MD: ferramenta especial para converter arquivos PPTX em Markdown
O PPTX2MD é uma ferramenta de código aberto projetada para converter arquivos PPTX do PowerPoint para o formato Markdown. Desenvolvida pelo usuário do GitHub ssine, a ferramenta suporta a retenção de títulos, listas, formatação de texto (como negrito, itálico, cores e hiperlinks), imagens e tabelas, entre outros formatos.
3.1 Katravés (como em "através do trem")0Recomendado
0Marcado
Repomix: empacotamento da base de código em um arquivo de texto para recuperação de modelos grandes
O Repomix (anteriormente conhecido como Repopack) é uma ferramenta de código aberto projetada para empacotar toda uma base de código em um único arquivo compatível com IA. Essa ferramenta permite que os desenvolvedores disponibilizem facilmente sua base de código para análise e processamento por grandes modelos de linguagem, como Claude, ChatGPT e Gemini. Ela foi originalmente projetada para ...
3.7 Katravés (como em "através do trem")0Recomendado
0Marcado
Yek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandes
O Yek é uma ferramenta rápida baseada em Rust para ler arquivos de texto de repositórios ou diretórios, dividi-los em pedaços e serializá-los para uso em modelos de linguagem grandes (LLMs). A ferramenta usa a regra .gitignore por padrão para ignorar arquivos desnecessários e usa o histórico do Git para inferir arquivos importantes.
3.0 Katravés (como em "através do trem")0Recomendado
0Marcado
LlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas gratuitas por dia).
O LlamaParse é uma poderosa ferramenta de análise de documentos que pode processar documentos complexos, como PDF, PowerPoint, Word e planilhas, e convertê-los em dados estruturados. O LlamaParse oferece várias maneiras de usá-lo, incluindo uma API REST autônoma, pacotes Python,...
3.4 Katravés (como em "através do trem")0Recomendado
0Marcado
UnDatas.IO: serviço de API para análise precisa de vários tipos de dados não estruturados (pago)
A UnDatas.IO é uma plataforma voltada para a análise e o processamento de dados não estruturados. Ela utiliza tecnologia avançada para identificar automaticamente layouts de documentos e categorizar tabelas, imagens, fórmulas e textos, simplificando bastante o processo de processamento de dados. A plataforma não só economiza muito tempo na organização dos dados, mas também ajuda os usuários a extrair insights valiosos dos dados e a fazer mais...
2.6 Katravés (como em "através do trem")0Recomendado
0Marcado

Clique para ver mais