Conversa de voz em tempo real
O RealtimeVoiceChat é um projeto de código aberto que se concentra em conversas naturais e em tempo real com inteligência artificial por meio de voz. Os usuários usam o microfone para inserir a voz, o sistema captura o áudio por meio do navegador, converte-o rapidamente em texto, gera uma resposta a partir de um modelo de linguagem grande (LLM) e, em seguida, converte o texto em saída de voz, tudo...
Conch Speech (MiniMax Audio): ferramenta de IA para gerar discurso natural
O MiniMax Audio é uma ferramenta de geração de fala de IA da MiniMax, com o recurso principal de converter rapidamente texto em fala natural altamente semelhante. Ela se baseia no modelo Speech-02, com uma similaridade de síntese de fala de até 99%, qualidade de som de nível de estúdio e suporte para mais de 30 idiomas e uma ampla variedade de...
TwinMind
O TwinMind é uma ferramenta inteligente desenvolvida pela ThirdEar AI, Inc. que "lembra de tudo para você". Ele pode gravar e converter conversas, reuniões ou palestras em texto em tempo real, em mais de 100 idiomas, e pode ser usado off-line mesmo quando o telefone está no bolso. Os usuários não precisam fazer anotações por conta própria, o TwinMind...
Agentes em tempo real da OpenAI
O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como as APIs em tempo real da OpenAI podem ser usadas para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo. O projeto ...
Fiança
O Bailing (Bailing) é um assistente de diálogo por voz de código aberto projetado para estabelecer um diálogo natural com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelo de linguagem ampla (LLM) e síntese de fala (TTS) para implementar um robô de diálogo por voz semelhante ao GPT-4o...
Assistente de IA Deepseek "sempre ativo": criação de um sistema de interação de voz inteligente baseado no Deepseek-V3
O Always-On AI Assistant é um projeto inovador de assistente de IA que cria um sistema de assistente de IA avançado e permanentemente on-line, integrando tecnologias avançadas, como Deepseek-V3, RealtimeSTT e Typer. O projeto é especialmente otimizado para cenários de desenvolvimento de engenharia, fornecendo um...
Xiaozhi AI Chatbot
O Xiaozhi AI Chatbot é um projeto de código aberto baseado na placa de desenvolvimento ESP32, projetado para ajudar os usuários a criar seu próprio companheiro de bate-papo de IA. O projeto foi desenvolvido pela Shrimp e é usado principalmente para fins didáticos, a fim de ajudar mais pessoas a iniciar o desenvolvimento de hardware de IA e entender como aplicar o modelo de linguagem grande a dispositivos de hardware reais. Projeto ...
Agente de pesca
Fish Speech Derivative Project O Fish Agent é um revolucionário sistema de clonagem de fala de IA de ponta a ponta desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, sua característica mais importante é que ele adota um projeto inovador de arquitetura sem tags semânticas, que não precisa depender de linguagens tradicionais, como o Whisper .....
Ichigo (llama3-s)
O Ichigo é um projeto de código aberto de IA de fala em tempo real que visa ampliar os modelos de linguagem baseados em texto com recursos nativos de "escuta". O projeto usa técnicas de fusão iniciais inspiradas no documento Chameleon da Meta. O objetivo do Ichigo é se tornar um dispositivo de fala nativo ponderado e de dados de código aberto...
compreender através da audição
O Tongyi Listening and Understanding é um assistente de IA de aprendizado no trabalho lançado pela Aliyun, que se concentra na transcrição e análise de conteúdo de áudio e vídeo. Ele se baseia nos poderosos modelos de IA do AliCloud para transcrever conteúdo de áudio e vídeo em texto em tempo real, além de fornecer tradução, resumo, posicionamento e outras funções. O Tongyi Listening Woo suporta vários idiomas e cenários para ajudar os usuários...