
VibeVoice-1.5B: um modelo de geração de fala para diálogos de áudio longos com várias funções da Microsoft
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...

A MiniMax lança o Speech 2.5: a tecnologia de síntese de fala é inovadora em multilinguismo e reprodução de tons
No dia 7 de agosto, a MiniMax anunciou seu modelo de geração de fala de última geração, o Speech 2.5, que, de acordo com dados oficiais, melhora seu antecessor, o Speech 02, em termos de expressividade multilíngue, precisão de reprodução de timbre e número de idiomas suportados. No campo do Conteúdo Gerado por Inteligência Artificial (AIGC), o texto...

KittenTTS: um modelo leve de conversão de texto em fala
O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.

SongGeneration: um modelo de IA de código aberto para gerar músicas e letras de alta qualidade
O SongGeneration é um modelo de geração de música desenvolvido e de código aberto pelo Tencent AI Lab, com foco na geração de músicas de alta qualidade, incluindo letras, acompanhamento e vocais. Ele se baseia na estrutura LeVo, combinando o modelo de linguagem LeLM e codecs de música para oferecer suporte à geração de músicas em inglês e chinês. O modelo é treinado em um conjunto de dados de um milhão de músicas e pode...

OpusLM_7B_Anneal: um modelo unificado eficiente para reconhecimento e síntese de fala
O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo de processamento de fala. O modelo é baseado em...

Magenta RealTime: um modelo de código aberto para gerar música em tempo real
O Magenta RealTime (abreviado como Magenta RT) é um modelo de geração de música de código aberto desenvolvido pelo Google DeepMind que se concentra na criação de música em tempo real. É uma versão de código aberto do Lyria RealTime que oferece suporte à geração de clipes de música de alta qualidade por meio de dicas de texto ou áudio. O modelo é baseado em 80...

MOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngue
MOSS-TTSD 是一个开源的对话语音生成模型,支持中文和英文双语。它可以将双人对话文本转化为自然、富有表现力的语音,适合用于AI播客制作、语言研究等场景。模型基于低比特率编码技术,支持零样本双人语音克隆和长达960秒的单次语音生成。MO...

Higgs Audio: uma ferramenta de código aberto para gerar fala de alta qualidade e diálogo com vários caracteres
Higgs Audio 是由 Boson AI 开发的一个开源文本转语音(TTS)项目,专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练,支持零样本语音克隆、自然对话生成和多语言语音输出。Higgs A...

Voxtral: um modelo de IA desenvolvido pela Mistral AI para transcrição e compreensão de fala
O Voxtral é seu primeiro modelo de áudio aberto lançado em 15 de julho de 2025 pela startup francesa de IA Mistral AI. O objetivo da Voxtral é fornecer aos aplicativos comerciais recursos de compreensão de fala prontos para uso em ambientes de produção, a um preço altamente competitivo no mercado. Há duas versões do modelo Voxtral para produção...

CosyVoice: ferramenta de geração e clonagem multilíngue de código aberto Ali
CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著降低了30%到...

Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue
O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.

Kyutai: ferramenta de conversão de fala em texto em tempo real
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...

MiniMax Speech 02
Com a evolução contínua das tecnologias de IA, a interação de voz personalizada e altamente natural tornou-se um requisito fundamental para muitos aplicativos inteligentes. No entanto, as tecnologias de texto para fala (TTS) existentes ainda enfrentam desafios para atender às necessidades de tons personalizados em grande escala, cobertura multilíngue e expressão de emoções altamente realistas. Para abordar esses pontos problemáticos do setor, o MiniMax Speech...

Muyan-TTS: treinamento e síntese de fala em podcasts personalizados
Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3B 构建,结合 SoVITS 解码器,提供高效的语...

Kimi-Audio: processamento de áudio de código aberto e modelo de base de diálogo
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新的混合架构,在...

Orpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinês
O Orpheus-TTS é um sistema de conversão de texto em fala (TTS) de código aberto desenvolvido na arquitetura Llama-3b, com o objetivo de gerar áudio que se aproxima da fala humana natural. Ele foi lançado pela equipe da Canopy AI e é compatível com vários idiomas, como inglês, espanhol, francês, alemão, italiano, português e chinês. O sistema pode...

MegaTTS3: um modelo leve para sintetizar a fala em chinês e inglês
MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在 GitHub 上,提供代码和预训练模型供免费下载...

IndexTTS: ferramenta de conversão de texto em fala com suporte a mixagem de chinês e inglês
O IndexTTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto hospedada no GitHub e desenvolvida pela equipe do index-tts. Ela se baseia nas tecnologias XTTS e Tortoise e oferece síntese de fala eficiente e de alta qualidade por meio de um design de módulo aprimorado.

AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão
A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é a mais avançada tecnologia de fala para texto da AssemblyAI...
voltar ao topo