
OneAIFW: um firewall leve de código aberto para proteger a privacidade de grandes modelos de dados
OneAIFW(aifw)是由Funstory.ai开发的一款旨在解决大语言模型(LLM)数据隐私问题的开源工具。在当前的大模型应用中,用户经常需要将包含个人身份信息(PII)或商业机密的文本发送给云端模型(如ChatGPT、Claude等...

AutoForm: ferramenta de IA que extrai dados de qualquer documento e preenche automaticamente formulários da Web
AutoForm是一个使用人工智能技术,旨在将用户从重复的数据复制和粘贴工作中解放出来的工具。 它的核心功能是作为一个“AI数据录入代理”,能够读取和理解多种格式的非结构化文件,例如PDF文档、电子表格、邮件、网页乃至视频等。 AutoFo...

OCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código aberto
OCRmyPDF 是一个开源的命令行工具,专门用于为扫描的PDF文件添加光学字符识别(OCR)文本层,使其变为可搜索、可复制的文档。它基于Python开发,使用Tesseract OCR引擎,能准确识别图像中的文字,并将其嵌入PDF中,保持...

Docstrange: uma ferramenta para extrair dados de documentos e imagens e convertê-los em vários formatos
O Docstrange é uma ferramenta de processamento de documentos de código aberto que se concentra em extrair dados de documentos e imagens em vários formatos e convertê-los em formatos como Markdown, JSON, CSV ou HTML. Ele usa inteligência artificial e tecnologia OCR avançada, suporte para processamento de documentos PDF, Word, Exce...

LangExtract: ferramenta de código aberto para extrair dados estruturados de textos
LangExtract é uma biblioteca Python de código aberto desenvolvida pelo Google que se concentra na extração de dados estruturados de textos não estruturados. Ela usa modelos de linguagem grandes (LLMs), como a família Google Gemini, combinados com a localização precisa do texto de origem e recursos de visualização interativa para ajudar os usuários a colocar rapidamente textos complexos ...

Chat4Data: uma ferramenta de IA para extrair dados da Web por meio de linguagem natural
Chat4Data 是一个基于人工智能的 Chrome 浏览器扩展工具,专注于简化网页数据提取。它通过自然语言对话让用户轻松获取网页上的结构化数据,无需编写代码。用户只需用简单的语言描述所需数据,如产品名称、价格或联系方式,Chat4Dat...

ytt-mcp: ferramenta de servidor para obter e processar legendas para vídeos do YouTube
ytt-mcp是一个开源的MCP(模型上下文协议)服务器工具,专门用于从YouTube视频中获取字幕并进行处理。它由cottongeeks团队开发,托管在GitHub上,旨在帮助用户通过简单命令或AI工具快速提取视频字幕,并支持进一步的内容...
WaterCrawl: transformando o conteúdo da Web em dados utilizáveis para grandes modelos
O WaterCrawl é uma poderosa ferramenta de rastreamento da Web de código aberto projetada para ajudar os usuários a extrair dados de páginas da Web e transformá-los em um formato de dados adequado para o processamento de Modelagem de Linguagem Grande (LLM). Ele é baseado no desenvolvimento Python, combinado com as tecnologias Django, Scrapy e Celery, e oferece suporte ao rastreamento eficiente da Web e aos dados ...

Golfinho
Dolphin 是由 ByteDance 开发的一款开源文档图像解析工具,专注于处理复杂的文档图像,如包含文本、表格、公式和图片的扫描件或 PDF 文件。它采用“先分析后解析”的方法,通过两阶段处理实现高效解析:首先分析文档的页面布局,生成...

OneFileLLM: integração de várias fontes de dados em um único arquivo de texto
O OneFileLLM é uma ferramenta de linha de comando de código aberto projetada para consolidar várias fontes de dados em um único arquivo de texto para facilitar a entrada de modelos de linguagem grande (LLMs). Ele suporta o processamento de repositórios do GitHub, artigos do ArXiv, transcrições de vídeos do YouTube, conteúdo da Web, artigos do Sci-Hub e arquivos locais, gerando automaticamente estruturas...

Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat
O Chatlog é uma ferramenta de código aberto que se concentra na extração e consulta de registros de bate-papo do banco de dados local do WeChat. Ele é compatível com as versões 3.x e 4.0 do WeChat, abrangendo os sistemas Windows e macOS. Os usuários podem operar a partir da linha de comando, da interface de terminal ou da API HTTP para visualizar registros de bate-papo, contatos, bate-papos em grupo e...

DevDocs: um serviço MCP para rastrear e organizar rapidamente a documentação técnica
O DevDocs é uma ferramenta totalmente gratuita e de código aberto desenvolvida pela equipe da CyberAGI e hospedada no GitHub. Ela foi projetada para que programadores e desenvolvedores de software comecem a partir do URL de um documento técnico, rastreiem automaticamente as páginas relevantes e as organizem em arquivos Markdown ou JSON concisos. Ele tem um MCP integrado ...

Converta vários arquivos para o formato Markdown gratuitamente com base em Workers AI
O serverless-markdown-convertor é uma ferramenta de código aberto gratuita baseada no Cloudflare Worker e no Workers AI que converte uma grande variedade de arquivos para o formato Markdown. Ele é compatível com PDF, imagens, documentos do Office ...

GPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimento
O GPT-Crawler é uma ferramenta de código aberto desenvolvida pela equipe do BuilderIO e hospedada no GitHub. Ele rastreia o conteúdo da página inserindo um ou mais URLs de sites, gerando um arquivo de conhecimento estruturado (output.json) que pode ser usado para criar um GPT personalizado ou um assistente de IA. Usuários...

pure.md: insira "pure.md/" na frente do URL para extrair o texto limpo.
pure.md 是一个为 AI 代理和开发者设计的工具,主打快速将网页内容或文件转为 Markdown 格式。它通过代理服务绕过反爬虫限制,提取网页核心数据,并输出简洁的 Markdown 文件。无论是动态网页、PDF 文件还是社交媒体内容...

Cloudsquid: faça upload de documentos e descreva os requisitos para a extração inteligente de dados estruturados
Cloudsquid 是一家 2023 年成立于德国柏林的公司,专注于用人工智能简化文件处理。它的核心产品是一个在线数据提取平台,用户只需上传 PDF、图片、音频、视频等文件,简单说明需要提取的数据,比如“找出姓名和金额”,AI 就会自动完...

PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown
PDF Craft 是一个开源工具,专为扫描书籍的PDF设计,能将其转换为Markdown格式。它由 oomol-lab 开发,托管在 GitHub 上,适合喜欢整理电子书的用户。工具通过本地AI模型运行,无需联网,既保护隐私又方便操作。它...

Supametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLM
Supametas.AI 是一个数据处理平台,专门把网页、文档、音视频等杂乱信息整理成AI能用的结构化数据。它支持从多个来源收集数据,包括网页链接、API、本地文件等,然后输出为 JSON 或 Markdown 格式。平台无需编程经验,普通...

MarkPDFDown: converte PDF em Markdown com base em um modelo multimodal
O MarkPDFDown é uma ferramenta de código aberto. Ela usa o modelo multimodal de big language para converter arquivos PDF em formato Markdown. Desenvolvida pelo usuário do GitHub jorben, essa ferramenta tem um objetivo simples: tornar os documentos PDF mais fáceis de editar e compartilhar. Ela reconhece títulos, listas,...
voltar ao topo