Voxtral: um modelo de IA desenvolvido pela Mistral AI para transcrição e compreensão de fala
O Voxtral é seu primeiro modelo de áudio aberto lançado em 15 de julho de 2025 pela startup francesa de IA Mistral AI. O objetivo do Voxtral é fornecer aos aplicativos comerciais recursos de compreensão de fala prontos para uso em ambientes de produção, a um preço altamente competitivo no mercado. O modelo Voxtral está disponível em duas versões para ....
CosyVoice: ferramenta de geração e clonagem multilíngue de código aberto Ali
O CosyVoice é um modelo de geração de fala multilíngue de código aberto que se concentra na tecnologia de conversão de texto em fala (TTS) de alta qualidade. Ele suporta a síntese de fala em vários idiomas, fornecendo recursos como geração de fala com amostra zero, clonagem de fala em vários idiomas e controle de sentimento refinado. O CosyVoice 2.0 é comparado à versão anterior, significativamente...
Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue
O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.
Kyutai: ferramenta de conversão de fala em texto em tempo real
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...
MiniMax Speech 02
Com a evolução contínua das tecnologias de IA, a interação de voz personalizada e altamente natural tornou-se um requisito fundamental para muitos aplicativos inteligentes. No entanto, as tecnologias de conversão de texto em fala (TTS) existentes ainda enfrentam desafios para atender a tons personalizados em grande escala, cobertura multilíngue e expressão de emoções altamente realistas. Para abordar essas linhas...
AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão
A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é a mais avançada tecnologia de fala para texto da AssemblyAI...
Baichuan-Áudio
O Baichuan-Audio é um projeto de código aberto desenvolvido pela Baichuan Intelligence (baichuan-inc), hospedado no GitHub, com foco na tecnologia de interação de voz de ponta a ponta. O projeto fornece uma estrutura completa de processamento de áudio que pode transformar a entrada de voz em tokens de áudio discretos e, em seguida, por meio de um grande modelo para gerar um par de ...
Step-Audio
O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan), taxa de fala ajustável...
Parler-TTS: geração de modelos de conversão de texto em fala específicos do locutor a partir do texto de entrada
O Parler-TTS é uma biblioteca de modelos de conversão de texto em fala (TTS) de código aberto desenvolvida pela Hugging Face, projetada para gerar fala de alta qualidade e com som natural. O modelo é capaz de gerar fala com um estilo de locutor específico (por exemplo, gênero, tom, estilo de fala etc.) com base no texto de entrada. O Parler-TTS é baseado no artigo .....