Conversa de voz em tempo real
O RealtimeVoiceChat é um projeto de código aberto que se concentra em conversas naturais e em tempo real com inteligência artificial por meio de voz. Os usuários usam o microfone para inserir a voz, o sistema captura o áudio por meio do navegador, converte-o rapidamente em texto, gera uma resposta a partir de um modelo de linguagem grande (LLM) e, em seguida, converte o texto em saída de voz, tudo...
Transcritor
O Transkriptor é uma ferramenta de transcrição orientada por IA que se concentra na conversão rápida de áudio e vídeo em texto. Ela suporta mais de 100 idiomas com uma taxa de precisão de até 99% e é adequada para uma ampla variedade de cenários, como reuniões, entrevistas, anotações em sala de aula e muito mais. Os usuários podem fazer upload de arquivos, gravar diretamente ou transcrever por meio de links para o Zoom, Go...
Conch Speech (MiniMax Audio): ferramenta de IA para gerar discurso natural
O MiniMax Audio é uma ferramenta de geração de fala de IA da MiniMax, com o recurso principal de converter rapidamente texto em fala natural altamente semelhante. Ela se baseia no modelo Speech-02, com uma similaridade de síntese de fala de até 99%, qualidade de som de nível de estúdio e suporte para mais de 30 idiomas e uma ampla variedade de...
TwinMind
O TwinMind é uma ferramenta inteligente desenvolvida pela ThirdEar AI, Inc. que "lembra de tudo para você". Ele pode gravar e converter conversas, reuniões ou palestras em texto em tempo real, em mais de 100 idiomas, e pode ser usado off-line mesmo quando o telefone está no bolso. Os usuários não precisam fazer anotações por conta própria, o TwinMind...
Agentes em tempo real da OpenAI
O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como as APIs em tempo real da OpenAI podem ser usadas para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo. O projeto ...
Fiança
O Bailing (Bailing) é um assistente de diálogo por voz de código aberto projetado para estabelecer um diálogo natural com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelo de linguagem ampla (LLM) e síntese de fala (TTS) para implementar um robô de diálogo por voz semelhante ao GPT-4o...
Assistente de IA Deepseek "sempre ativo": criação de um sistema de interação de voz inteligente baseado no Deepseek-V3
O Always-On AI Assistant é um projeto inovador de assistente de IA que cria um sistema de assistente de IA avançado e permanentemente on-line, integrando tecnologias avançadas, como Deepseek-V3, RealtimeSTT e Typer. O projeto é especialmente otimizado para cenários de desenvolvimento de engenharia, fornecendo um...
Xiaozhi AI Chatbot
O Xiaozhi AI Chatbot é um projeto de código aberto baseado na placa de desenvolvimento ESP32, projetado para ajudar os usuários a criar seu próprio companheiro de bate-papo de IA. O projeto foi desenvolvido pela Shrimp e é usado principalmente para fins didáticos, a fim de ajudar mais pessoas a iniciar o desenvolvimento de hardware de IA e entender como aplicar o modelo de linguagem grande a dispositivos de hardware reais. Projeto ...
Agente de pesca
Fish Speech Derivative Project O Fish Agent é um revolucionário sistema de clonagem de fala de IA de ponta a ponta desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, sua característica mais importante é que ele adota um projeto inovador de arquitetura sem tags semânticas, que não precisa depender de linguagens tradicionais, como o Whisper .....
Voz-Pro
O Voice-Pro é uma ferramenta multifuncional baseada na Gradio WebUI que oferece suporte a conversão de fala em texto, conversão de texto em fala, tradução em tempo real, downloads de vídeos do YouTube e separação de voz humana. Ele integra o Whisper, o Faster-Whisper e o Whisper-Timestamp...
Ichigo (llama3-s)
O Ichigo é um projeto de código aberto de IA de fala em tempo real que visa ampliar os modelos de linguagem baseados em texto com recursos nativos de "escuta". O projeto usa técnicas de fusão iniciais inspiradas no documento Chameleon da Meta. O objetivo do Ichigo é se tornar um dispositivo de fala nativo ponderado e de dados de código aberto...
Audição de IA
Se estiver usando um MacBook, experimente o AI Hear: ele pode gravar áudio, converter a fala local em tempo real em texto, traduzir e, eventualmente, exportar legendas. Você pode usá-lo para ajudá-lo a ouvir reuniões entre países e audiolivros em inglês. O AI Hear é um software local que oferece tradução e transcrição em tempo real com um clique em vários idiomas....
Fukumaru Chione
O Funmaru Thousand Voices é uma plataforma de síntese de voz de IA multilíngue que oferece soluções de geração de voz realistas e naturais. Os usuários podem converter facilmente o conteúdo de texto em áudio de nível profissional e apoiar a criação de vozes de IA exclusivas (clones de voz) a partir de zero amostras para atender às necessidades personalizadas. A plataforma também oferece a função de tradução de vídeo para ajudar os usuários a...
Tongyi Listening and Understanding: Assistente de IA para transcrição de conteúdo de áudio e vídeo do Ali Tongyi
O Tongyi Listening and Understanding é um assistente de IA de aprendizado no trabalho lançado pela Aliyun, que se concentra na transcrição e análise de conteúdo de áudio e vídeo. Ele se baseia nos poderosos modelos de IA do AliCloud para transcrever conteúdo de áudio e vídeo em texto em tempo real, além de fornecer tradução, resumo, posicionamento e outras funções. O Tongyi Listening Woo suporta vários idiomas e cenários para ajudar os usuários...
Tencent Smartfilm (desenvolvedores da plataforma de mensagens instantâneas QQ)
O Tencent Smart Shadow é uma plataforma de criação de vídeo inteligente on-line lançada pela Tencent, que pode oferecer suporte à dublagem de texto, transmissão humana digital, reconhecimento automático de legendas e outras funções por meio de poderosas ferramentas de IA fornecidas por serviços em nuvem.