O Simple Subtitling é uma ferramenta de código aberto de geração de legendas de áudio que se concentra na geração automática de legendas e na identificação de alto-falantes para arquivos de vídeo ou áudio. O projeto desenvolvido por Jaesung Huh, hospedado no GitHub, tem como objetivo fornecer uma solução simples e eficiente de geração de legendas. Ferramentas por meio da tecnologia de processamento de áudio .....
O arXiv Summarizer é uma ferramenta de script Python de código aberto, hospedada no GitHub, criada para ajudar os usuários a acessar e gerar rapidamente resumos de artigos acadêmicos da plataforma arXiv. Ele usa a API Gemini gratuita para resumir textos de forma eficiente e é adequado para pesquisadores, estudantes e acadêmicos...
O Sim Studio é uma plataforma de código aberto para a criação de fluxos de trabalho de agentes de IA, focada em ajudar os usuários a projetar, testar e implementar rapidamente fluxos de trabalho de modelos de linguagem (LLM) em grande escala por meio de uma interface visual leve e intuitiva. Os usuários podem criar aplicativos multiagentes complexos com o recurso de arrastar e soltar, sem necessidade de programação profunda. Ele suporta essa ...
O Hula é uma ferramenta criativa com tecnologia de IA projetada para transformar selfies de usuários em vídeos virais, imagens de vários estilos e pacotes de adesivos personalizados com uma simples operação de um clique. A desenvolvedora Prequel Inc. criou o aplicativo para suportar as plataformas iOS e Android para os ávidos usuários de redes sociais...
AIstudioProxyAPI é um projeto de código aberto que usa a tecnologia Node.js e Playwright para converter a funcionalidade de diálogo do modelo Gemini da versão web do Google AI Studio em uma conexão de API padrão, emulando a API OpenAI ...
O Step1X-Edit é uma estrutura de edição de imagens de código aberto desenvolvida pela equipe de IA da Stepfun e hospedada no GitHub. Ele combina um modelo multimodal de linguagem ampla (Qwen-VL) e um transformador de difusão (DiT) para permitir que os usuários editem uma imagem com comandos simples de linguagem natural, como alterar o plano de fundo, remover um objeto ou transformar o vento ....
O Klavis AI é uma plataforma de código aberto focada em simplificar o uso e a integração do protocolo de contexto de modelo (MCP), um padrão aberto que permite que os aplicativos de IA se conectem dinamicamente a ferramentas e fontes de dados externas.
O MiMo é um projeto de modelagem de linguagem grande de código aberto desenvolvido pela Xiaomi, com foco em raciocínio matemático e geração de código. O produto principal é a família de modelos MiMo-7B, que consiste em um modelo de base (Base), um modelo de ajuste fino supervisionado (SFT), um modelo de aprendizado de reforço treinado a partir do modelo de base (RL-Zero) e um modelo SFT treinado a partir de...
O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, fornece...
O CAD-MCP é um projeto de código aberto que permite aos usuários controlar as operações de desenho do software CAD por meio de comandos de linguagem natural. Ele combina processamento de linguagem natural e tecnologia de automação de CAD, de modo que os usuários não precisam operar manualmente a interface de CAD, basta inserir comandos de texto simples para criar e modificar o desenho. O projeto oferece suporte a uma variedade de ...
mangá-image-translator (versão de código aberto do Cotrans Translator), usado para traduzir o texto de uma história em quadrinhos ou imagem. Oferece interação de linha de comando e demonstração on-line, com modo de conversão em lote, modo de servidor da Web e outras diversas opções de uso. Pode ser definido em parâmetros de tradução e reconhecimento de destino em vários idiomas, .....
O GraphGen é uma estrutura de código aberto desenvolvida pelo OpenScienceLab, um laboratório de IA em Xangai, hospedado no GitHub, focado na otimização do ajuste fino supervisionado de LLMs (Large Language Models), orientando a geração de dados sintéticos por meio de gráficos de conhecimento. Ele constrói gráficos de conhecimento de granulação fina a partir do texto de origem, usando o erro de calibração esperado...
O ACI.dev é uma plataforma de infraestrutura de código aberto projetada para fornecer às inteligências de IA uma rápida integração com mais de 600 ferramentas. Ela garante que as inteligências tenham acesso seguro a ferramentas como o Google Agenda, o Slack e o Brave Search por meio de autenticação multilocatário e gerenciamento de permissões refinadas.
O llm.pdf é um projeto de código aberto que permite aos usuários executar modelos de linguagem grandes (LLMs) diretamente em arquivos PDF. Desenvolvido por EvanZhouDev e hospedado no GitHub, esse projeto demonstra uma abordagem inovadora: compilar llama.cpp via Emscripten como ...
O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou auxílios de aprendizagem. Os usuários podem escolher...
O Local Deep Research é um assistente de pesquisa de IA de código aberto projetado para ajudar os usuários a realizar pesquisas profundas e gerar relatórios detalhados para problemas complexos. Ele oferece suporte à execução local, permitindo que os usuários concluam tarefas de pesquisa sem depender de serviços de nuvem. A ferramenta combina a modelagem local de linguagem grande (LLM)...
O DeepWiki é uma ferramenta gratuita da Cognition AI voltada para a geração de documentação estruturada, semelhante à da Wikipédia, para repositórios do GitHub. Ele ajuda os desenvolvedores a entender rapidamente códigos complexos, analisando códigos, arquivos README e arquivos de configuração para criar automaticamente documentação detalhada e diagramas interativos...
Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, permitindo que os usuários combinem diferentes modelos de detecção de objetos (por exemplo, YOLO, RT-DETR) para uma análise de vídeo flexível. Os usuários podem facilmente...
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoção de fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com...