
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...

O Kitten-TTS-Server é um projeto de código aberto que fornece um servidor com recursos aprimorados para o modelo leve KittenTTS. Os usuários podem usar esse projeto para criar seu próprio serviço de conversão de texto em fala (TTS). A principal vantagem desse projeto é que ele se baseia no modelo original, acrescentando uma página da Web intuitiva ...

O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.

O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo de processamento de fala. O modelo é baseado em...

O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto que suporta o bilinguismo chinês e inglês. Ele pode converter texto de diálogo de duas pessoas em fala natural e expressiva, adequada para a produção de podcasts de IA, pesquisa de idiomas e outros cenários. O modelo é baseado na tecnologia de codificação de baixa taxa de bits e suporta clonagem de fala de duas pessoas com amostra zero e geração de fala única de até 960 segundos.

O FineShare é uma plataforma focada em tecnologia de áudio e vídeo com IA, oferecendo uma variedade de ferramentas para ajudar os usuários a criar conteúdo de voz, música e vídeo de alta qualidade. Os principais produtos do site incluem FineVoice, Singify e FineCam para geração e conversão de voz, criação de música com IA e câmera virtual...

Xunfei Zhizuo é uma plataforma desenvolvida pela Xunfei para fornecer serviços de criação de conteúdo de inteligência artificial. Sua principal função é converter o texto inserido pelo usuário em fala, um processo geralmente chamado de “dublagem de IA” ou “síntese de fala”. Os usuários podem escolher entre uma variedade de vozes virtuais pré-programadas (ou seja, “âncoras”) com estilos diferentes, como noticiários...

O ListenHub é uma plataforma que usa tecnologia de inteligência artificial para transformar rapidamente páginas da Web, documentos ou informações do usuário em podcasts. Ela suporta síntese de fala em chinês e inglês, e os usuários podem gerar áudio de podcast natural e suave simplesmente carregando um arquivo, digitando um tópico ou colando um link. A plataforma é fácil de operar e adequada para uso móvel, o que a torna conveniente para os usuários receberem durante o trajeto, exercícios ou tempo livre...

O Higgs Audio é um projeto de código aberto de conversão de texto em fala (TTS) desenvolvido pela Boson AI, com foco na geração de fala de alta qualidade, emocionalmente rica e diálogo com vários caracteres. O projeto baseia-se em mais de 10 milhões de horas de treinamento de dados de áudio e oferece suporte à clonagem de fala de amostra zero, geração de diálogo natural e saída de fala multilíngue.

O Parrot TTS é uma extensão do Chrome projetada para converter texto da Web em fala natural. Ela usa tecnologia avançada de IA para proporcionar uma experiência de voz quase humana, resolvendo o problema das ferramentas tradicionais de conversão de texto em fala que soam mecânicas. Os usuários podem converter artigos, notícias ou materiais de pesquisa em áudio com um clique, o que é adequado para multitarefas...

O AIdeaFlow Podcast é uma plataforma de geração de podcast baseada em IA que permite aos usuários transformar rapidamente o conteúdo de texto em áudio de podcast de alta qualidade. Ela suporta vários idiomas e mais de 120 vozes exclusivas para estudantes, profissionais e criadores de conteúdo. Os usuários simplesmente inserem o texto ou carregam um script, e a plataforma gera automaticamente um par natural de...

O CosyVoice é um modelo de geração de fala multilíngue de código aberto que se concentra na tecnologia de conversão de texto em fala (TTS) de alta qualidade. Ele oferece suporte à síntese de fala em vários idiomas, fornecendo recursos como geração de fala com amostra zero, clonagem de fala em vários idiomas e controle de sentimento refinado. O CosyVoice 2.0 é comparado à versão anterior, reduzindo significativamente o 30% para...

O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.

O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...

O AIVocal é uma plataforma de processamento de áudio de IA gratuita que oferece conversão de texto em fala (TTS), conversão de fala em texto (STT), separação de voz humana e geração de podcast. Os usuários podem usá-la sem registro e ela é compatível com 24 idiomas e mais de 900 tons naturais, o que é adequado para a produção de podcasts, audiolivros, dublagem de vídeo e assim por diante. A interface da plataforma é intuitiva e...

O SuperMaker AI é uma plataforma de criação on-line gratuita que ajuda os usuários a gerar rapidamente conteúdo de vídeo, música, imagem e voz de alta qualidade. Os usuários podem experimentar os principais recursos sem fazer login, e é fácil de operar, o que o torna adequado para criadores individuais e pequenas equipes. A plataforma usa tecnologia de inteligência artificial para transformar texto, imagens ou ideias criativas em conteúdo de nível profissional, com resultados...

O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, oferece uma fala eficiente...

O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoções na fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com uma arquitetura híbrida inovadora...

O Audibit é um projeto de código aberto, cuja função principal é transformar automaticamente o Hacker News, o TechCrunch e outros artigos populares sobre tecnologia em podcasts de áudio, para que os usuários possam ouvir informações pela Web ou por dispositivos móveis durante o trajeto para o trabalho, o exercício físico ou quando estiverem ocupados. O projeto usa Next.js e React para desenvolver o front-end, combinado com ...
voltar ao topo

