
OneAIFW: um firewall leve de código aberto para proteger a privacidade de grandes modelos de dados
O OneAIFW (aifw) é uma ferramenta de código aberto desenvolvida pela Funstory.ai que tem como objetivo abordar problemas de privacidade de dados em modelos de linguagem grande (LLMs). Nos atuais aplicativos de modelos grandes, os usuários geralmente precisam enviar texto contendo informações de identificação pessoal (PII) ou segredos comerciais para modelos baseados em nuvem (por exemplo, ChatGPT, Claude...

AutoForm: ferramenta de IA que extrai dados de qualquer documento e preenche automaticamente formulários da Web
O AutoForm é uma ferramenta que utiliza tecnologia de inteligência artificial para liberar os usuários de tarefas repetitivas de copiar e colar dados. Sua principal função é atuar como um “agente de entrada de dados de IA” que pode ler e compreender arquivos não estruturados em vários formatos, como documentos PDF, planilhas, e-mails, páginas da Web e até mesmo vídeos. O AutoFo...

OCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código aberto
O OCRmyPDF é uma ferramenta de linha de comando de código aberto projetada para adicionar uma camada de texto de reconhecimento óptico de caracteres (OCR) a arquivos PDF digitalizados, transformando-os em documentos pesquisáveis e reproduzíveis. Ele se baseia no desenvolvimento em Python e usa o mecanismo de OCR Tesseract, podendo identificar com precisão o texto na imagem e incorporado ao PDF, mantendo ...

Docstrange: uma ferramenta para extrair dados de documentos e imagens e convertê-los em vários formatos
O Docstrange é uma ferramenta de processamento de documentos de código aberto que se concentra em extrair dados de documentos e imagens em vários formatos e convertê-los em formatos como Markdown, JSON, CSV ou HTML. Ele usa inteligência artificial e tecnologia OCR avançada, suporte para processamento de documentos PDF, Word, Exce...

LangExtract: ferramenta de código aberto para extrair dados estruturados de textos
LangExtract é uma biblioteca Python de código aberto desenvolvida pelo Google que se concentra na extração de dados estruturados de textos não estruturados. Ela usa modelos de linguagem grandes (LLMs), como a família Google Gemini, combinados com a localização precisa do texto de origem e recursos de visualização interativa para ajudar os usuários a colocar rapidamente textos complexos ...

Chat4Data: uma ferramenta de IA para extrair dados da Web por meio de linguagem natural
O Chat4Data é uma extensão do Chrome baseada em IA que se concentra em simplificar a extração de dados de páginas da Web. Ela facilita o acesso dos usuários a dados estruturados em páginas da Web por meio de diálogo em linguagem natural, sem a necessidade de escrever código. Os usuários só precisam descrever os dados necessários em linguagem simples, como nome do produto, preço ou informações de contato, e o Chat4Dat...

ytt-mcp: ferramenta de servidor para obter e processar legendas para vídeos do YouTube
O ytt-mcp é uma ferramenta de servidor MCP (Model Context Protocol) de código aberto projetada especificamente para extrair legendas de vídeos do YouTube e processá-las. Desenvolvido pela equipe cottongeeks e hospedado no GitHub, ele foi projetado para ajudar os usuários a extrair rapidamente legendas de vídeo com comandos simples ou ferramentas de IA e oferecer suporte a conteúdo adicional...

WaterCrawl: transformando o conteúdo da Web em dados utilizáveis para grandes modelos
O WaterCrawl é uma poderosa ferramenta de rastreamento da Web de código aberto projetada para ajudar os usuários a extrair dados de páginas da Web e transformá-los em um formato de dados adequado para o processamento de Modelagem de Linguagem Grande (LLM). Ele é baseado no desenvolvimento Python, combinado com as tecnologias Django, Scrapy e Celery, e oferece suporte ao rastreamento eficiente da Web e aos dados ...

Dolphin
O Dolphin foi desenvolvido pela ByteDance e é uma ferramenta de análise de imagens de documentos de código aberto, com foco no processamento de imagens de documentos complexos, como texto, tabelas, fórmulas e imagens contidas em arquivos digitalizados ou PDF. Ele usa a abordagem “primeira análise após a análise”, por meio de um processo de dois estágios para obter uma análise eficiente: primeiro, analisa o layout da página do documento para gerar ...

OneFileLLM: integração de várias fontes de dados em um único arquivo de texto
O OneFileLLM é uma ferramenta de linha de comando de código aberto projetada para consolidar várias fontes de dados em um único arquivo de texto para facilitar a entrada de modelos de linguagem grande (LLMs). Ele suporta o processamento de repositórios do GitHub, artigos do ArXiv, transcrições de vídeos do YouTube, conteúdo da Web, artigos do Sci-Hub e arquivos locais, gerando automaticamente estruturas...

Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat
O Chatlog é uma ferramenta de código aberto que se concentra na extração e consulta de registros de bate-papo do banco de dados local do WeChat. Ele é compatível com as versões 3.x e 4.0 do WeChat, abrangendo os sistemas Windows e macOS. Os usuários podem operar a partir da linha de comando, da interface de terminal ou da API HTTP para visualizar registros de bate-papo, contatos, bate-papos em grupo e...

DevDocs: um serviço MCP para rastrear e organizar rapidamente a documentação técnica
O DevDocs é uma ferramenta totalmente gratuita e de código aberto desenvolvida pela equipe da CyberAGI e hospedada no GitHub. Ela foi projetada para que programadores e desenvolvedores de software comecem a partir do URL de um documento técnico, rastreiem automaticamente as páginas relevantes e as organizem em arquivos Markdown ou JSON concisos. Ele tem um MCP integrado ...

Converta vários arquivos para o formato Markdown gratuitamente com base em Workers AI
O serverless-markdown-convertor é uma ferramenta de código aberto gratuita baseada no Cloudflare Worker e no Workers AI que converte uma grande variedade de arquivos para o formato Markdown. Ele é compatível com PDF, imagens, documentos do Office ...

GPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimento
O GPT-Crawler é uma ferramenta de código aberto desenvolvida pela equipe do BuilderIO e hospedada no GitHub. Ele rastreia o conteúdo da página inserindo um ou mais URLs de sites, gerando um arquivo de conhecimento estruturado (output.json) que pode ser usado para criar um GPT personalizado ou um assistente de IA. Usuários...

pure.md: insira "pure.md/" na frente do URL para extrair o texto limpo.
O pure.md é uma ferramenta projetada para agentes e desenvolvedores de IA que se concentra na conversão rápida de conteúdo ou arquivos da Web para o formato Markdown. Ela contorna as restrições anti rastreamento por meio de serviços de proxy, extrai os dados principais de uma página da Web e gera um arquivo Markdown limpo. Seja uma página da Web dinâmica, um arquivo PDF ou um conteúdo de mídia social...

Cloudsquid: faça upload de documentos e descreva os requisitos para a extração inteligente de dados estruturados
A Cloudsquid é uma empresa fundada em 2023 em Berlim, Alemanha, que se concentra no uso de inteligência artificial para simplificar o processamento de documentos. Seu principal produto é uma plataforma de extração de dados on-line que permite que os usuários carreguem PDFs, imagens, áudio, vídeo etc., e simplesmente informem os dados a serem extraídos, como “descobrir o nome e o valor”, e a IA concluirá automaticamente...

PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown
O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pela oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus e-books. A ferramenta é executada por meio de um modelo de IA local e não requer conexão com a Internet, o que protege a privacidade e facilita a operação. Ela...

Supametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLM
A Supametas.AI é uma plataforma de processamento de dados especializada em organizar a confusão de páginas da Web, documentos, áudio e vídeo em dados estruturados que a IA pode usar. Ela suporta a coleta de dados de várias fontes, incluindo links da Web, APIs, arquivos locais etc. e, em seguida, a saída em formato JSON ou Markdown. A plataforma não requer experiência em programação, e a...

MarkPDFDown: converte PDF em Markdown com base em um modelo multimodal
O MarkPDFDown é uma ferramenta de código aberto. Ela usa o modelo multimodal de big language para converter arquivos PDF em formato Markdown. Desenvolvida pelo usuário do GitHub jorben, essa ferramenta tem um objetivo simples: tornar os documentos PDF mais fáceis de editar e compartilhar. Ela reconhece títulos, listas,...
voltar ao topo