AutoForm: ferramenta de IA que extrai dados de qualquer documento e preenche automaticamente formulários da Web
AutoForm是一个使用人工智能技术,旨在将用户从重复的数据复制和粘贴工作中解放出来的工具。 它的核心功能是作为一个“AI数据录入代理”,能够读取和理解多种格式的非结构化文件,例如PDF文档、电子表格、邮件、网...
OCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código aberto
OCRmyPDF é uma ferramenta de linha de comando de código aberto criada para adicionar uma camada de texto de reconhecimento óptico de caracteres (OCR) a arquivos PDF digitalizados, transformando-os em documentos pesquisáveis e reproduzíveis. Ele se baseia no desenvolvimento em Python e, usando o mecanismo Tesseract OCR, pode identificar com precisão o texto na imagem e incorporá-lo ao PDF...
Docstrange: uma ferramenta para extrair dados de documentos e imagens e convertê-los em vários formatos
O Docstrange é uma ferramenta de processamento de documentos de código aberto que se concentra em extrair dados de documentos e imagens em vários formatos e convertê-los em formatos como Markdown, JSON, CSV ou HTML. Ele usa inteligência artificial e tecnologia OCR avançada, suporte para processamento de documentos PDF, Word, Exce...
LangExtract: ferramenta de código aberto para extrair dados estruturados de textos
LangExtract é uma biblioteca Python de código aberto desenvolvida pelo Google que se concentra na extração de dados estruturados de textos não estruturados. Ela usa modelos de linguagem grandes (LLMs), como a família Google Gemini, combinados com a localização precisa do texto de origem e recursos de visualização interativa para ajudar os usuários a colocar rapidamente textos complexos ...
Chat4Data: uma ferramenta de IA para extrair dados da Web por meio de linguagem natural
O Chat4Data é uma extensão do Chrome baseada em IA que se concentra em simplificar a extração de dados de páginas da Web. Ela facilita o acesso dos usuários a dados estruturados em páginas da Web por meio de diálogo em linguagem natural, sem escrever código. Os usuários só precisam descrever os dados necessários em linguagem simples, como o nome do produto, o preço ou...
ytt-mcp: ferramenta de servidor para obter e processar legendas para vídeos do YouTube
O ytt-mcp é uma ferramenta de servidor MCP (Model Context Protocol) de código aberto projetada especificamente para extrair legendas de vídeos do YouTube e processá-las. Desenvolvida pela equipe cottongeeks e hospedada no GitHub, ela foi projetada para ajudar os usuários a extrair rapidamente legendas de vídeo com comandos simples ou ferramentas de IA, além de oferecer suporte a...
WaterCrawl: transformando o conteúdo da Web em dados utilizáveis para grandes modelos
O WaterCrawl é uma poderosa ferramenta de rastreamento da Web de código aberto projetada para ajudar os usuários a extrair dados de páginas da Web e transformá-los em um formato de dados adequado para o processamento de Modelagem de Linguagem Grande (LLM). Ele é baseado no desenvolvimento Python, combinado com as tecnologias Django, Scrapy e Celery, e oferece suporte ao rastreamento eficiente da Web e aos dados ...
Golfinho
O Dolphin foi desenvolvido pela ByteDance e é uma ferramenta de análise de imagens de documentos de código aberto, com foco no processamento de imagens de documentos complexos, como texto, tabelas, fórmulas e imagens contidas em arquivos digitalizados ou PDF. Ele usa a abordagem "primeira análise após a análise", por meio de um processo de dois estágios para obter uma análise eficiente: primeiro analisar o texto ...
OneFileLLM: integração de várias fontes de dados em um único arquivo de texto
O OneFileLLM é uma ferramenta de linha de comando de código aberto projetada para consolidar várias fontes de dados em um único arquivo de texto para facilitar a entrada de modelos de linguagem grande (LLMs). Ele suporta o processamento de repositórios do GitHub, artigos do ArXiv, transcrições de vídeos do YouTube, conteúdo da Web, artigos do Sci-Hub e arquivos locais, gerando automaticamente estruturas...
Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat
O Chatlog é uma ferramenta de código aberto que se concentra na extração e consulta de registros de bate-papo do banco de dados local do WeChat. Ele é compatível com as versões 3.x e 4.0 do WeChat, abrangendo os sistemas Windows e macOS. Os usuários podem operar a partir da linha de comando, da interface de terminal ou da API HTTP para visualizar registros de bate-papo, contatos, bate-papos em grupo e...
DevDocs: um serviço MCP para rastrear e organizar rapidamente a documentação técnica
O DevDocs é uma ferramenta totalmente gratuita e de código aberto desenvolvida pela equipe da CyberAGI e hospedada no GitHub. Ela foi projetada para que programadores e desenvolvedores de software comecem a partir do URL de um documento técnico, rastreiem automaticamente as páginas relevantes e as organizem em arquivos Markdown ou JSON concisos. Ele tem um MCP integrado ...
Converta vários arquivos para o formato Markdown gratuitamente com base em Workers AI
O serverless-markdown-convertor é uma ferramenta de código aberto gratuita baseada no Cloudflare Worker e no Workers AI que converte uma grande variedade de arquivos para o formato Markdown. Ele é compatível com PDF, imagens, documentos do Office ...
GPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimento
O GPT-Crawler é uma ferramenta de código aberto desenvolvida pela equipe do BuilderIO e hospedada no GitHub. Ele rastreia o conteúdo da página inserindo um ou mais URLs de sites, gerando um arquivo de conhecimento estruturado (output.json) que pode ser usado para criar um GPT personalizado ou um assistente de IA. Usuários...
pure.md: insira "pure.md/" na frente do URL para extrair o texto limpo.
O pure.md é uma ferramenta projetada para agentes e desenvolvedores de IA que se concentra na conversão rápida de conteúdo ou arquivos da Web para o formato Markdown. Ela contorna as restrições anti rastreamento por meio de serviços de proxy, extrai os dados principais de uma página da Web e gera um arquivo Markdown limpo. Seja uma página da Web dinâmica, um arquivo PDF ou um arquivo...
Cloudsquid: faça upload de documentos e descreva os requisitos para a extração inteligente de dados estruturados
A Cloudsquid é uma empresa fundada em 2023 em Berlim, Alemanha, com foco na simplificação do processamento de documentos com inteligência artificial. Seu principal produto é uma plataforma de extração de dados on-line que permite que os usuários carreguem PDFs, imagens, áudio, vídeo, etc., e simplesmente informem os dados a serem extraídos, como "Descubra o nome e o nome do...
PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown
O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pela oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus eBooks. A ferramenta é executada por meio de um modelo de IA local e não requer conexão com a Internet, o que protege a privacidade e facilita a operação. ....
Supametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLM
A Supametas.AI é uma plataforma de processamento de dados especializada em organizar a confusão de páginas da Web, documentos, áudio e vídeo em dados estruturados que a IA pode usar. Ela suporta a coleta de dados de várias fontes, incluindo links da Web, APIs, arquivos locais etc. e, em seguida, exporta-os para o formato JSON ou Markdown. A plataforma não requer programação...
MarkPDFDown: converte PDF em Markdown com base em um modelo multimodal
O MarkPDFDown é uma ferramenta de código aberto. Ela usa o modelo multimodal de big language para converter arquivos PDF em formato Markdown. Desenvolvida pelo usuário do GitHub jorben, essa ferramenta tem um objetivo simples: tornar os documentos PDF mais fáceis de editar e compartilhar. Ela reconhece títulos, listas,...
SmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volume
O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M, hospedado na plataforma Hugging Face. O SmolDocling é o menor VLM do mundo, com apenas 256 milhões de parâmetros, e sua função principal é...
voltar ao topo