VibeVoice-1.5B: um modelo de geração de fala para diálogos de áudio longos com várias funções da Microsoft
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...
A MiniMax lança o Speech 2.5: a tecnologia de síntese de fala é inovadora em multilinguismo e reprodução de tons
Em 7 de agosto, a MiniMax anunciou seu modelo de geração de fala de última geração, o Speech 2.5, que, de acordo com informações oficiais, aprimora seu antecessor, o Speech 02, em termos de expressividade multilíngue, precisão de reprodução de timbre e número de idiomas suportados. No campo do Conteúdo Gerado por Inteligência Artificial (AIGC)...
KittenTTS: um modelo leve de conversão de texto em fala
O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.
SongGeneration: um modelo de IA de código aberto para gerar músicas e letras de alta qualidade
O SongGeneration é um modelo de geração de música desenvolvido e de código aberto pelo Tencent AI Lab, com foco na geração de músicas de alta qualidade, incluindo letras, acompanhamento e vocais. Ele se baseia na estrutura LeVo, combinando o modelo de linguagem LeLM e codecs de música para oferecer suporte à geração de músicas em inglês e chinês. O modelo é baseado em um conjunto de dados de milhões de músicas...
OpusLM_7B_Anneal: um modelo unificado eficiente para reconhecimento e síntese de fala
O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo do processamento de fala. O modelo .....
Magenta RealTime: um modelo de código aberto para gerar música em tempo real
O Magenta RealTime (abreviado como Magenta RT) é um modelo de geração de música de código aberto desenvolvido pelo Google DeepMind que se concentra na criação de música em tempo real. É uma versão de código aberto do Lyria RealTime que oferece suporte à geração de clipes de música de alta qualidade por meio de dicas de texto ou áudio. O modelo é baseado em 80...
MOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngue
O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto que suporta o bilinguismo chinês e inglês. Ele pode converter texto de diálogo de duas pessoas em fala natural e expressiva, adequada para produção de podcast de IA, pesquisa de idiomas e outros cenários. O modelo é baseado na tecnologia de codificação de baixa taxa de bits e suporta clonagem de fala de duas pessoas com amostragem zero e...
Higgs Audio: uma ferramenta de código aberto para gerar fala de alta qualidade e diálogo com vários caracteres
O Higgs Audio é um projeto de conversão de texto em fala (TTS) de código aberto desenvolvido pela Boson AI, que se concentra na geração de falas de alta qualidade e emocionalmente ricas e em diálogos com vários caracteres. O projeto baseia-se em mais de 10 milhões de horas de treinamento de dados de áudio e oferece suporte à clonagem de fala de amostra zero, geração de diálogo natural e saída de fala multilíngue....
Voxtral: um modelo de IA desenvolvido pela Mistral AI para transcrição e compreensão de fala
O Voxtral é seu primeiro modelo de áudio aberto lançado em 15 de julho de 2025 pela startup francesa de IA Mistral AI. O objetivo do Voxtral é fornecer aos aplicativos comerciais recursos de compreensão de fala prontos para uso em ambientes de produção, a um preço altamente competitivo no mercado. O modelo Voxtral está disponível em duas versões para ....
CosyVoice: ferramenta de geração e clonagem multilíngue de código aberto Ali
O CosyVoice é um modelo de geração de fala multilíngue de código aberto que se concentra na tecnologia de conversão de texto em fala (TTS) de alta qualidade. Ele suporta a síntese de fala em vários idiomas, fornecendo recursos como geração de fala com amostra zero, clonagem de fala em vários idiomas e controle de sentimento refinado. O CosyVoice 2.0 é comparado à versão anterior, significativamente...
Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue
O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.
Kyutai: ferramenta de conversão de fala em texto em tempo real
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...
MiniMax Speech 02
Com a evolução contínua das tecnologias de IA, a interação de voz personalizada e altamente natural tornou-se um requisito fundamental para muitos aplicativos inteligentes. No entanto, as tecnologias de conversão de texto em fala (TTS) existentes ainda enfrentam desafios para atender a tons personalizados em grande escala, cobertura multilíngue e expressão de emoções altamente realistas. Para abordar essas linhas...
Muyan-TTS: treinamento e síntese de fala em podcasts personalizados
O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, fornece...
Kimi-Audio: processamento de áudio de código aberto e modelo de base de diálogo
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoção de fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com...
Orpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinês
O Orpheus-TTS é um sistema de conversão de texto em fala (TTS) de código aberto desenvolvido na arquitetura Llama-3b com o objetivo de gerar áudio próximo à fala humana natural. Ele foi lançado pela equipe da Canopy AI e é compatível com vários idiomas, como inglês, espanhol, francês, alemão, italiano, português e chinês...
MegaTTS3: um modelo leve para sintetizar a fala em chinês e inglês
O MegaTTS3 é uma ferramenta de síntese de fala de código aberto desenvolvida pela ByteDance em colaboração com a Universidade de Zhejiang, com foco na geração de fala em chinês e inglês de alta qualidade. Seu modelo principal tem apenas 0,45B de parâmetros, é leve e eficiente, suporta a geração de fala mista em chinês e inglês e a clonagem de fala. O projeto está hospedado no GitHub, fornecendo código e...
IndexTTS: ferramenta de conversão de texto em fala com suporte a mixagem de chinês e inglês
O IndexTTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto hospedada no GitHub e desenvolvida pela equipe do index-tts. Ela se baseia nas tecnologias XTTS e Tortoise e oferece síntese de fala eficiente e de alta qualidade por meio de um design de módulo aprimorado.
AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão
A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é a mais avançada tecnologia de fala para texto da AssemblyAI...
voltar ao topo