
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...

O Kitten-TTS-Server é um projeto de código aberto que fornece um servidor com recursos aprimorados para o modelo leve KittenTTS. Os usuários podem usar esse projeto para criar seu próprio serviço de conversão de texto em fala (TTS). A principal vantagem desse projeto é que ele se baseia no modelo original, acrescentando uma página da Web intuitiva ...

O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.

O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo de processamento de fala. O modelo é baseado em...

MOSS-TTSD 是一个开源的对话语音生成模型,支持中文和英文双语。它可以将双人对话文本转化为自然、富有表现力的语音,适合用于AI播客制作、语言研究等场景。模型基于低比特率编码技术,支持零样本双人语音克隆和长达960秒的单次语音生成。MO...

O FineShare é uma plataforma focada em tecnologia de áudio e vídeo com IA, oferecendo uma variedade de ferramentas para ajudar os usuários a criar conteúdo de voz, música e vídeo de alta qualidade. Os principais produtos do site incluem FineVoice, Singify e FineCam para geração e conversão de voz, criação de música com IA e câmera virtual...

Xunfei Zhizuo é uma plataforma desenvolvida pela Xunfei para fornecer serviços de criação de conteúdo de inteligência artificial. Sua principal função é converter o texto inserido pelo usuário em fala, um processo geralmente chamado de “dublagem de IA” ou “síntese de fala”. Os usuários podem escolher entre uma variedade de vozes virtuais pré-programadas (ou seja, “âncoras”) com estilos diferentes, como noticiários...

O ListenHub é uma plataforma que usa tecnologia de inteligência artificial para transformar rapidamente páginas da Web, documentos ou informações do usuário em podcasts. Ela suporta síntese de fala em chinês e inglês, e os usuários podem gerar áudio de podcast natural e suave simplesmente carregando um arquivo, digitando um tópico ou colando um link. A plataforma é fácil de operar e adequada para uso móvel, o que a torna conveniente para os usuários receberem durante o trajeto, exercícios ou tempo livre...

Higgs Audio 是由 Boson AI 开发的一个开源文本转语音(TTS)项目,专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练,支持零样本语音克隆、自然对话生成和多语言语音输出。Higgs A...

O Parrot TTS é uma extensão do Chrome projetada para converter texto da Web em fala natural. Ela usa tecnologia avançada de IA para proporcionar uma experiência de voz quase humana, resolvendo o problema das ferramentas tradicionais de conversão de texto em fala que soam mecânicas. Os usuários podem converter artigos, notícias ou materiais de pesquisa em áudio com um clique, o que é adequado para multitarefas...

O AIdeaFlow Podcast é uma plataforma de geração de podcast baseada em IA que permite aos usuários transformar rapidamente o conteúdo de texto em áudio de podcast de alta qualidade. Ela suporta vários idiomas e mais de 120 vozes exclusivas para estudantes, profissionais e criadores de conteúdo. Os usuários simplesmente inserem o texto ou carregam um script, e a plataforma gera automaticamente um par natural de...

CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著降低了30%到...

O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.

O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...

O AIVocal é uma plataforma de processamento de áudio de IA gratuita que oferece conversão de texto em fala (TTS), conversão de fala em texto (STT), separação de voz humana e geração de podcast. Os usuários podem usá-la sem registro e ela é compatível com 24 idiomas e mais de 900 tons naturais, o que é adequado para a produção de podcasts, audiolivros, dublagem de vídeo e assim por diante. A interface da plataforma é intuitiva e...

O SuperMaker AI é uma plataforma de criação on-line gratuita que ajuda os usuários a gerar rapidamente conteúdo de vídeo, música, imagem e voz de alta qualidade. Os usuários podem experimentar os principais recursos sem fazer login, e é fácil de operar, o que o torna adequado para criadores individuais e pequenas equipes. A plataforma usa tecnologia de inteligência artificial para transformar texto, imagens ou ideias criativas em conteúdo de nível profissional, com resultados...

Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3B 构建,结合 SoVITS 解码器,提供高效的语...

Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新的混合架构,在...

O Audibit é um projeto de código aberto, cuja função principal é transformar automaticamente o Hacker News, o TechCrunch e outros artigos populares sobre tecnologia em podcasts de áudio, para que os usuários possam ouvir informações pela Web ou por dispositivos móveis durante o trajeto para o trabalho, o exercício físico ou quando estiverem ocupados. O projeto usa Next.js e React para desenvolver o front-end, combinado com ...
voltar ao topo

