O BAGEL é um modelo de base multimodal de código aberto desenvolvido pela equipe do ByteDance Seed e hospedado no GitHub. Ele integra recursos de compreensão de texto, geração de imagens e edição para dar suporte a tarefas multimodais. O modelo tem 7 bilhões de parâmetros ativos (14 bilhões de parâmetros no total) e usa a mistura de...
O DeepResearchAgent é uma ferramenta de IA de código aberto desenvolvida pela SkyworkAI que se concentra na automação de pesquisas profundas. Ela ajuda os usuários a gerar rapidamente relatórios de pesquisa detalhados, combinando mecanismos de pesquisa, rastreamento da Web e modelagem de linguagem em larga escala (LLM). Os usuários simplesmente inserem um tópico ou pergunta de pesquisa e a ferramenta pesquisa automaticamente...
O Muscle-Mem é uma ferramenta Python de código aberto hospedada no GitHub e desenvolvida pela pig-dot-dev. Ela foi projetada para fornecer recursos de cache comportamental para agentes de IA para ajudar a reduzir as chamadas de modelos de linguagem grandes (LLM) em tarefas repetitivas, resultando em execuções mais rápidas, menor variabilidade e economia de custos....
O Simple Subtitling é uma ferramenta de código aberto de geração de legendas de áudio que se concentra na geração automática de legendas e na identificação de alto-falantes para arquivos de vídeo ou áudio. O projeto desenvolvido por Jaesung Huh, hospedado no GitHub, tem como objetivo fornecer uma solução simples e eficiente de geração de legendas. Ferramentas por meio da tecnologia de processamento de áudio .....
O arXiv Summarizer é uma ferramenta de script Python de código aberto, hospedada no GitHub, criada para ajudar os usuários a acessar e gerar rapidamente resumos de artigos acadêmicos da plataforma arXiv. Ele usa a API Gemini gratuita para resumir textos de forma eficiente e é adequado para pesquisadores, estudantes e acadêmicos...
O Sim Studio é uma plataforma de código aberto para a criação de fluxos de trabalho de agentes de IA, focada em ajudar os usuários a projetar, testar e implementar rapidamente fluxos de trabalho de modelos de linguagem (LLM) em grande escala por meio de uma interface visual leve e intuitiva. Os usuários podem criar aplicativos multiagentes complexos com o recurso de arrastar e soltar, sem necessidade de programação profunda. Ele suporta essa ...
O Mad Professor (暴躁的教授读论文) é uma ferramenta acadêmica de IA de código aberto desenvolvida para pesquisadores e estudantes para simplificar a leitura e a análise de artigos acadêmicos. Ela integra processamento de PDF, tradução de IA, pesquisa RAG, perguntas e respostas de IA e interação por voz. Os usuários podem importar documentos em PDF...
AIstudioProxyAPI é um projeto de código aberto que usa a tecnologia Node.js e Playwright para converter a funcionalidade de diálogo do modelo Gemini da versão web do Google AI Studio em uma conexão de API padrão, emulando a API OpenAI ...
O Step1X-Edit é uma estrutura de edição de imagens de código aberto desenvolvida pela equipe de IA da Stepfun e hospedada no GitHub. Ele combina um modelo multimodal de linguagem ampla (Qwen-VL) e um transformador de difusão (DiT) para permitir que os usuários editem uma imagem com comandos simples de linguagem natural, como alterar o plano de fundo, remover um objeto ou transformar o vento ....
O Klavis AI é uma plataforma de código aberto focada em simplificar o uso e a integração do protocolo de contexto de modelo (MCP), um padrão aberto que permite que os aplicativos de IA se conectem dinamicamente a ferramentas e fontes de dados externas.
O RealtimeVoiceChat é um projeto de código aberto que se concentra em conversas naturais e em tempo real com inteligência artificial por meio de voz. Os usuários usam o microfone para inserir a voz, o sistema captura o áudio por meio do navegador, converte-o rapidamente em texto, gera uma resposta a partir de um modelo de linguagem grande (LLM) e, em seguida, converte o texto em saída de voz, tudo...
O MiMo é um projeto de modelagem de linguagem grande de código aberto desenvolvido pela Xiaomi, com foco em raciocínio matemático e geração de código. O produto principal é a família de modelos MiMo-7B, que consiste em um modelo de base (Base), um modelo de ajuste fino supervisionado (SFT), um modelo de aprendizado de reforço treinado a partir do modelo de base (RL-Zero) e um modelo SFT treinado a partir de...
O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, fornece...
O CAD-MCP é um projeto de código aberto que permite aos usuários controlar as operações de desenho do software CAD por meio de comandos de linguagem natural. Ele combina processamento de linguagem natural e tecnologia de automação de CAD, de modo que os usuários não precisam operar manualmente a interface de CAD, basta inserir comandos de texto simples para criar e modificar o desenho. O projeto oferece suporte a uma variedade de ...
O GraphGen é uma estrutura de código aberto desenvolvida pelo OpenScienceLab, um laboratório de IA em Xangai, hospedado no GitHub, focado na otimização do ajuste fino supervisionado de LLMs (Large Language Models), orientando a geração de dados sintéticos por meio de gráficos de conhecimento. Ele constrói gráficos de conhecimento de granulação fina a partir do texto de origem, usando o erro de calibração esperado...
O ACI.dev é uma plataforma de infraestrutura de código aberto projetada para fornecer às inteligências de IA uma rápida integração com mais de 600 ferramentas. Ela garante que as inteligências tenham acesso seguro a ferramentas como o Google Agenda, o Slack e o Brave Search por meio de autenticação multilocatário e gerenciamento de permissões refinadas.
O llm.pdf é um projeto de código aberto que permite aos usuários executar modelos de linguagem grandes (LLMs) diretamente em arquivos PDF. Desenvolvido por EvanZhouDev e hospedado no GitHub, esse projeto demonstra uma abordagem inovadora: compilar llama.cpp via Emscripten como ...
O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou auxílios de aprendizagem. Os usuários podem escolher...
O Local Deep Research é um assistente de pesquisa de IA de código aberto projetado para ajudar os usuários a realizar pesquisas profundas e gerar relatórios detalhados para problemas complexos. Ele oferece suporte à execução local, permitindo que os usuários concluam tarefas de pesquisa sem depender de serviços de nuvem. A ferramenta combina a modelagem local de linguagem grande (LLM)...