O BAGEL é um modelo de base multimodal de código aberto desenvolvido pela equipe do ByteDance Seed e hospedado no GitHub. Ele integra recursos de compreensão de texto, geração de imagens e edição para dar suporte a tarefas multimodais. O modelo tem 7 bilhões de parâmetros ativos (14 bilhões de parâmetros no total) e usa a mistura de...
O RealtimeVoiceChat é um projeto de código aberto que se concentra em conversas naturais e em tempo real com inteligência artificial por meio de voz. Os usuários usam o microfone para inserir a voz, o sistema captura o áudio por meio do navegador, converte-o rapidamente em texto, gera uma resposta a partir de um modelo de linguagem grande (LLM) e, em seguida, converte o texto em saída de voz, tudo...
O Stepsailor é uma ferramenta para desenvolvedores com uma barra de comando de IA em seu núcleo. Os desenvolvedores podem usá-la para fazer com que seus produtos de software entendam o que o usuário diz, por exemplo, se o usuário disser "adicionar nova tarefa", o software executará automaticamente. Ele é integrado aos produtos SaaS por meio de um SDK simples e não exige que os desenvolvedores saibam ...
O OpenAvatarChat é um projeto de código aberto desenvolvido pela equipe HumanAIGC-Engineering e hospedado no GitHub. É uma ferramenta modular de diálogo humano digital que permite aos usuários executar todas as funcionalidades em um único PC. O projeto combina vídeo em tempo real, reconhecimento de fala e tecnologia humana digital...
O VideoMind é uma ferramenta de IA multimodal de código aberto que se concentra em inferência, perguntas e respostas e geração de resumo para vídeos longos. Foi desenvolvido por Ye Liu, da Universidade Politécnica de Hong Kong, e por uma equipe do Show Lab da Universidade Nacional de Cingapura. A ferramenta imita a maneira como os humanos entendem o vídeo, dividindo a tarefa em planejamento, posicionamento, verificação...
O MoshiVis é um projeto de código aberto desenvolvido pela Kyutai Labs e hospedado no GitHub. Ele se baseia no modelo de fala para texto Moshi (7B parâmetros), com cerca de 206 milhões de novos parâmetros de adaptação e o codificador visual PaliGemma2 congelado (400M parâmetros), permitindo que o modelo...
O Qwen2.5-Omni é um modelo de IA multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen. Ele pode processar várias entradas, como texto, imagens, áudio e vídeo, e gerar respostas em texto ou fala natural em tempo real. O modelo foi lançado em 26 de março de 2025, e o código e os arquivos do modelo estão hospedados no GitH....
xiaozhi-esp32-server 是一个为 小智AI聊天机器人(xiaozhi-esp32)提供后端服务的工具。它用 Python 编写,基于 WebSocket 协议,帮助用户快速搭建一个控制 ESP32 设备的服务器。这个项目适...
O Baichuan-Audio é um projeto de código aberto desenvolvido pela Baichuan Intelligence (baichuan-inc), hospedado no GitHub, com foco na tecnologia de interação de voz de ponta a ponta. O projeto fornece uma estrutura completa de processamento de áudio que pode transformar a entrada de voz em tokens de áudio discretos e, em seguida, por meio de um grande modelo para gerar um par de ...
O PowerAgents é uma plataforma de inteligências de IA focada em tarefas de automação da Web, que permite aos usuários criar e implementar inteligências de IA capazes de clicar, inserir e extrair dados. A plataforma suporta a configuração de tarefas a serem executadas automaticamente de hora em hora, diariamente ou semanalmente, e os usuários podem observar as inteligências trabalhando em tempo real. Ela não...
O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan), taxa de fala ajustável...
Gemini Cursor 是一个基于 Google 的 Gemini 2.0 Flash(实验性)模型的桌面智能助手。它能够通过多模态 API 实现视觉、听觉和语音交互,提供实时低延迟的用户体验。该项目由 @13point5 创建,旨在通...
O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos são excelentes em tarefas como perguntas e respostas visuais, reconhecimento óptico de caracteres, compreensão de documentos/tabelas/diagramas e localização visual.De...
O AI Web Operator é uma ferramenta de operador de navegador de IA de código aberto projetada para simplificar a experiência do usuário no navegador, integrando várias tecnologias de IA e SDKs. Criada com base no Browserbase e no Vercel AI SDK, a ferramenta oferece suporte a uma variedade de modelos de linguagem grande (LLM)...
SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统,基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实时打断交互。SpeechGPT 2.0-previ...
O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como as APIs em tempo real da OpenAI podem ser usadas para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo. O projeto ...
O Bailing (Bailing) é um assistente de diálogo por voz de código aberto projetado para estabelecer um diálogo natural com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelo de linguagem ampla (LLM) e síntese de fala (TTS) para implementar um robô de diálogo por voz semelhante ao GPT-4o...
Weebo 是一个开源的实时语音聊天机器人,利用 Whisper Small 进行语音识别,Llama 3.2 进行自然语言生成,以及 Kokoro-82M 进行语音合成。该项目由 Amanvir Parhar 开发,旨在提供一个能够在本地...
O OmAgent é uma estrutura de corpo inteligente multimodal desenvolvida pelo Om AI Lab para fornecer uma poderosa funcionalidade alimentada por IA para dispositivos inteligentes. O projeto permite que os desenvolvedores criem experiências interativas eficientes e em tempo real em uma ampla gama de dispositivos inteligentes, integrando modelos de base multimodais de última geração e algoritmos de corpo inteligente.