AI-Chatbox: projeto de diálogo inteligente de fala para texto baseado no ESP32S3
O AI-Chatbox é um projeto de interação por voz baseado na placa de desenvolvimento ESP32S3. Os usuários conversam com o modelo grande (LLM) por voz, o dispositivo converte a voz em texto e a envia para o modelo grande; depois de obter a resposta, ela pode ser convertida em transmissão de voz. O projeto foi desenvolvido usando a linguagem Rust, integrada com o assistente de reconhecimento de voz Vosk...
TEN: uma ferramenta de código aberto para criar inteligências de IA de fala multimodal em tempo real
O TEN Framework é uma plataforma de software de código aberto focada em ajudar os desenvolvedores a criar inteligências de IA de fala em tempo real, multimodais e de baixa latência. Ele é compatível com várias linguagens de programação, incluindo C, C++, Go, Python, JavaScript e TypeScript. Os desenvolvedores podem usar o TEN Framework para criar rapidamente fala, visão .....
Zaia Health: o assistente de voz com IA que monitora e melhora os hábitos de saúde
O Zaia Health é um aplicativo de saúde com inteligência artificial centrado em um assistente de voz chamado Zaia. O aplicativo foi desenvolvido para ajudar os usuários a se concentrarem e melhorarem seus hábitos de saúde. Ele atua como um companheiro pessoal de saúde por meio da interação de voz, orientando os usuários sobre sono, exercícios, nutrição e saúde mental...
wukong-robot: um projeto de alto-falante inteligente para criar um diálogo de voz personalizado em chinês
O wukong-robot é um robô de diálogo de voz em chinês de código aberto e um projeto de alto-falante inteligente, projetado para ajudar os desenvolvedores a criar rapidamente alto-falantes inteligentes personalizados. Ele é compatível com reconhecimento de fala em chinês, síntese de fala e função de diálogo em várias rodadas, integrado com ChatGPT, Baidu, KDDI e outras tecnologias. O projeto foi desenvolvido para ser modular,...
Conversa de voz em tempo real
O RealtimeVoiceChat é um projeto de código aberto que se concentra em conversas naturais e em tempo real com inteligência artificial por meio de voz. Os usuários usam o microfone para inserir a voz, o sistema captura o áudio por meio do navegador, converte-o rapidamente em texto, gera uma resposta a partir de um modelo de linguagem grande (LLM) e, em seguida, converte o texto em saída de voz, tudo...
gibberlink: um projeto de demonstração para comunicação de áudio eficiente entre duas inteligências de IA
O gibberlink é um projeto de código aberto no GitHub do desenvolvedor PennyroyalTea que se concentra em permitir a comunicação otimizada entre duas inteligências de IA de conversação. Quando duas IAs conversam ao telefone e se reconhecem como IAs, elas mudam da linguagem humana (inglês) para uma linguagem...
Agentes em tempo real da OpenAI
O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como as APIs em tempo real da OpenAI podem ser usadas para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo. O projeto ...
Fiança
O Bailing (Bailing) é um assistente de diálogo por voz de código aberto projetado para estabelecer um diálogo natural com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelo de linguagem ampla (LLM) e síntese de fala (TTS) para implementar um robô de diálogo por voz semelhante ao GPT-4o...
Assistente de IA Deepseek "sempre ativo": criação de um sistema de interação de voz inteligente baseado no Deepseek-V3
O Always-On AI Assistant é um projeto inovador de assistente de IA que cria um sistema de assistente de IA avançado e permanentemente on-line, integrando tecnologias avançadas, como Deepseek-V3, RealtimeSTT e Typer. O projeto é especialmente otimizado para cenários de desenvolvimento de engenharia, fornecendo um...
Xiaozhi AI Chatbot
O Xiaozhi AI Chatbot é um projeto de código aberto baseado na placa de desenvolvimento ESP32, projetado para ajudar os usuários a criar seu próprio companheiro de bate-papo de IA. O projeto foi desenvolvido pela Shrimp e é usado principalmente para fins didáticos, a fim de ajudar mais pessoas a iniciar o desenvolvimento de hardware de IA e entender como aplicar o modelo de linguagem grande a dispositivos de hardware reais. Projeto ...
Agente de pesca
Fish Speech Derivative Project O Fish Agent é um revolucionário sistema de clonagem de fala de IA de ponta a ponta desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, sua característica mais importante é que ele adota um projeto inovador de arquitetura sem tags semânticas, que não precisa depender de linguagens tradicionais, como o Whisper .....
Ichigo (llama3-s)
O Ichigo é um projeto de código aberto de IA de fala em tempo real que visa ampliar os modelos de linguagem baseados em texto com recursos nativos de "escuta". O projeto usa técnicas de fusão iniciais inspiradas no documento Chameleon da Meta. O objetivo do Ichigo é se tornar um dispositivo de fala nativo ponderado e de dados de código aberto...
Hume AI: Capacitando a IA com reconhecimento de emoções | Reconhecimento de estados emocionais a partir de sons e expressões | Geração de fala com estados emocionais
A Hume AI é uma empresa de IA focada em inteligência emocional, desenvolvendo tecnologias de IA multimodais que entendem e respondem às emoções humanas. Seu principal produto, a Empathic Voice Interface (EVI), é capaz de reconhecer e responder às emoções do usuário de várias formas, incluindo fala, expressões faciais e linguagem, para aprimorar a interação humano-computador...
voltar ao topo