
VibeVoice-1.5B: um modelo de geração de fala para diálogos de áudio longos com várias funções da Microsoft
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...

A MiniMax lança o Speech 2.5: a tecnologia de síntese de fala é inovadora em multilinguismo e reprodução de tons
No dia 7 de agosto, a MiniMax anunciou seu modelo de geração de fala de última geração, o Speech 2.5, que, de acordo com dados oficiais, melhora seu antecessor, o Speech 02, em termos de expressividade multilíngue, precisão de reprodução de timbre e número de idiomas suportados. No campo do Conteúdo Gerado por Inteligência Artificial (AIGC), o texto...

KittenTTS: um modelo leve de conversão de texto em fala
O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.

SongGeneration: um modelo de IA de código aberto para gerar músicas e letras de alta qualidade
O SongGeneration é um modelo de geração de música desenvolvido e de código aberto pelo Tencent AI Lab, com foco na geração de músicas de alta qualidade, incluindo letras, acompanhamento e vocais. Ele se baseia na estrutura LeVo, combinando o modelo de linguagem LeLM e codecs de música para oferecer suporte à geração de músicas em inglês e chinês. O modelo é treinado em um conjunto de dados de um milhão de músicas e pode...

OpusLM_7B_Anneal: um modelo unificado eficiente para reconhecimento e síntese de fala
O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo de processamento de fala. O modelo é baseado em...

Magenta RealTime: um modelo de código aberto para gerar música em tempo real
O Magenta RealTime (abreviado como Magenta RT) é um modelo de geração de música de código aberto desenvolvido pelo Google DeepMind que se concentra na criação de música em tempo real. É uma versão de código aberto do Lyria RealTime que oferece suporte à geração de clipes de música de alta qualidade por meio de dicas de texto ou áudio. O modelo é baseado em 80...

MOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngue
O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto que suporta o bilinguismo chinês e inglês. Ele pode converter texto de diálogo de duas pessoas em fala natural e expressiva, adequada para a produção de podcasts de IA, pesquisa de idiomas e outros cenários. O modelo é baseado na tecnologia de codificação de baixa taxa de bits e suporta clonagem de fala de duas pessoas com amostra zero e geração de fala única de até 960 segundos.

Higgs Audio: uma ferramenta de código aberto para gerar fala de alta qualidade e diálogo com vários caracteres
O Higgs Audio é um projeto de código aberto de conversão de texto em fala (TTS) desenvolvido pela Boson AI, com foco na geração de fala de alta qualidade, emocionalmente rica e diálogo com vários caracteres. O projeto baseia-se em mais de 10 milhões de horas de treinamento de dados de áudio e oferece suporte à clonagem de fala de amostra zero, geração de diálogo natural e saída de fala multilíngue.

Voxtral: um modelo de IA desenvolvido pela Mistral AI para transcrição e compreensão de fala
O Voxtral é seu primeiro modelo de áudio aberto lançado em 15 de julho de 2025 pela startup francesa de IA Mistral AI. O objetivo da Voxtral é fornecer aos aplicativos comerciais recursos de compreensão de fala prontos para uso em ambientes de produção, a um preço altamente competitivo no mercado. Há duas versões do modelo Voxtral para produção...

CosyVoice: ferramenta de geração e clonagem multilíngue de código aberto Ali
O CosyVoice é um modelo de geração de fala multilíngue de código aberto que se concentra na tecnologia de conversão de texto em fala (TTS) de alta qualidade. Ele oferece suporte à síntese de fala em vários idiomas, fornecendo recursos como geração de fala com amostra zero, clonagem de fala em vários idiomas e controle de sentimento refinado. O CosyVoice 2.0 é comparado à versão anterior, reduzindo significativamente o 30% para...

Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue
O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.

Kyutai: ferramenta de conversão de fala em texto em tempo real
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...

MiniMax Speech 02
Com a evolução contínua das tecnologias de IA, a interação de voz personalizada e altamente natural tornou-se um requisito fundamental para muitos aplicativos inteligentes. No entanto, as tecnologias de texto para fala (TTS) existentes ainda enfrentam desafios para atender às necessidades de tons personalizados em grande escala, cobertura multilíngue e expressão de emoções altamente realistas. Para abordar esses pontos problemáticos do setor, o MiniMax Speech...

Muyan-TTS: treinamento e síntese de fala em podcasts personalizados
O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, oferece uma fala eficiente...

Kimi-Audio: processamento de áudio de código aberto e modelo de base de diálogo
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoções na fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com uma arquitetura híbrida inovadora...

Orpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinês
O Orpheus-TTS é um sistema de conversão de texto em fala (TTS) de código aberto desenvolvido na arquitetura Llama-3b, com o objetivo de gerar áudio que se aproxima da fala humana natural. Ele foi lançado pela equipe da Canopy AI e é compatível com vários idiomas, como inglês, espanhol, francês, alemão, italiano, português e chinês. O sistema pode...

MegaTTS3: um modelo leve para sintetizar a fala em chinês e inglês
O MegaTTS3 é uma ferramenta de síntese de fala de código aberto desenvolvida pela ByteDance em colaboração com a Universidade de Zhejiang, com foco na geração de fala em chinês e inglês de alta qualidade. Seu modelo principal tem apenas 0,45B de parâmetros, é leve e eficiente, suporta a geração de fala mista em chinês e inglês e a clonagem de fala. O projeto está hospedado no GitHub, fornecendo código e modelos pré-treinados para download gratuito...

IndexTTS: ferramenta de conversão de texto em fala com suporte a mixagem de chinês e inglês
O IndexTTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto hospedada no GitHub e desenvolvida pela equipe do index-tts. Ela se baseia nas tecnologias XTTS e Tortoise e oferece síntese de fala eficiente e de alta qualidade por meio de um design de módulo aprimorado.

AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão
A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é a mais avançada tecnologia de fala para texto da AssemblyAI...
voltar ao topo