AutoForm是一个使用人工智能技术,旨在将用户从重复的数据复制和粘贴工作中解放出来的工具。 它的核心功能是作为一个“AI数据录入代理”,能够读取和理解多种格式的非结构化文件,例如PDF文档、电子表格、邮件、网...
OCRmyPDF é uma ferramenta de linha de comando de código aberto criada para adicionar uma camada de texto de reconhecimento óptico de caracteres (OCR) a arquivos PDF digitalizados, transformando-os em documentos pesquisáveis e reproduzíveis. Ele se baseia no desenvolvimento em Python e, usando o mecanismo Tesseract OCR, pode identificar com precisão o texto na imagem e incorporá-lo ao PDF...
O Docstrange é uma ferramenta de processamento de documentos de código aberto que se concentra em extrair dados de documentos e imagens em vários formatos e convertê-los em formatos como Markdown, JSON, CSV ou HTML. Ele usa inteligência artificial e tecnologia OCR avançada, suporte para processamento de documentos PDF, Word, Exce...
LangExtract é uma biblioteca Python de código aberto desenvolvida pelo Google que se concentra na extração de dados estruturados de textos não estruturados. Ela usa modelos de linguagem grandes (LLMs), como a família Google Gemini, combinados com a localização precisa do texto de origem e recursos de visualização interativa para ajudar os usuários a colocar rapidamente textos complexos ...
O MD-TOOL é um site de conjunto de ferramentas on-line gratuito que se concentra em serviços de conversão entre o formato Markdown e outros formatos de arquivo. Os principais recursos desse site incluem a conversão em tempo real de texto do Markdown em código HTML, a conversão de código HTML em texto do Markdown e a conversão de documentos do Markdown em...
O OCRFlux é uma ferramenta leve e de código aberto voltada para a conversão de arquivos PDF e imagens em um formato Markdown claro. Ela foi desenvolvida pela equipe do ChatDOC, com base em um grande modelo multimodal com 3B parâmetros, e pode ser executada em hardware comum, como a GTX 3090. A ferramenta é excelente para lidar com layouts de documentos complexos,...
O ytt-mcp é uma ferramenta de servidor MCP (Model Context Protocol) de código aberto projetada especificamente para extrair legendas de vídeos do YouTube e processá-las. Desenvolvida pela equipe cottongeeks e hospedada no GitHub, ela foi projetada para ajudar os usuários a extrair rapidamente legendas de vídeo com comandos simples ou ferramentas de IA, além de oferecer suporte a...
O WaterCrawl é uma poderosa ferramenta de rastreamento da Web de código aberto projetada para ajudar os usuários a extrair dados de páginas da Web e transformá-los em um formato de dados adequado para o processamento de Modelagem de Linguagem Grande (LLM). Ele é baseado no desenvolvimento Python, combinado com as tecnologias Django, Scrapy e Celery, e oferece suporte ao rastreamento eficiente da Web e aos dados ...
O OneFileLLM é uma ferramenta de linha de comando de código aberto projetada para consolidar várias fontes de dados em um único arquivo de texto para facilitar a entrada de modelos de linguagem grande (LLMs). Ele suporta o processamento de repositórios do GitHub, artigos do ArXiv, transcrições de vídeos do YouTube, conteúdo da Web, artigos do Sci-Hub e arquivos locais, gerando automaticamente estruturas...
O Chatlog é uma ferramenta de código aberto que se concentra na extração e consulta de registros de bate-papo do banco de dados local do WeChat. Ele é compatível com as versões 3.x e 4.0 do WeChat, abrangendo os sistemas Windows e macOS. Os usuários podem operar a partir da linha de comando, da interface de terminal ou da API HTTP para visualizar registros de bate-papo, contatos, bate-papos em grupo e...
O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para processar documentos acadêmicos e educacionais complexos. Ele pode extrair texto, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar dados estruturados adequados para treinamento de aprendizado de máquina. Suporte...
O DevDocs é uma ferramenta totalmente gratuita e de código aberto desenvolvida pela equipe da CyberAGI e hospedada no GitHub. Ela foi projetada para que programadores e desenvolvedores de software comecem a partir do URL de um documento técnico, rastreiem automaticamente as páginas relevantes e as organizem em arquivos Markdown ou JSON concisos. Ele tem um MCP integrado ...
Ele analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta é compatível com a funcionalidade OCR e permite converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos: modelo visual (Vision Grid ...
O serverless-markdown-convertor é uma ferramenta de código aberto gratuita baseada no Cloudflare Worker e no Workers AI que converte uma grande variedade de arquivos para o formato Markdown. Ele é compatível com PDF, imagens, documentos do Office ...
O GPT-Crawler é uma ferramenta de código aberto desenvolvida pela equipe do BuilderIO e hospedada no GitHub. Ele rastreia o conteúdo da página inserindo um ou mais URLs de sites, gerando um arquivo de conhecimento estruturado (output.json) que pode ser usado para criar um GPT personalizado ou um assistente de IA. Usuários...
O pure.md é uma ferramenta projetada para agentes e desenvolvedores de IA que se concentra na conversão rápida de conteúdo ou arquivos da Web para o formato Markdown. Ela contorna as restrições anti rastreamento por meio de serviços de proxy, extrai os dados principais de uma página da Web e gera um arquivo Markdown limpo. Seja uma página da Web dinâmica, um arquivo PDF ou um arquivo...
A Cloudsquid é uma empresa fundada em 2023 em Berlim, Alemanha, com foco na simplificação do processamento de documentos com inteligência artificial. Seu principal produto é uma plataforma de extração de dados on-line que permite que os usuários carreguem PDFs, imagens, áudio, vídeo, etc., e simplesmente informem os dados a serem extraídos, como "Descubra o nome e o nome do...
O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pela oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus eBooks. A ferramenta é executada por meio de um modelo de IA local e não requer conexão com a Internet, o que protege a privacidade e facilita a operação. ....
A Supametas.AI é uma plataforma de processamento de dados especializada em organizar a confusão de páginas da Web, documentos, áudio e vídeo em dados estruturados que a IA pode usar. Ela suporta a coleta de dados de várias fontes, incluindo links da Web, APIs, arquivos locais etc. e, em seguida, exporta-os para o formato JSON ou Markdown. A plataforma não requer programação...
voltar ao topo