O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...
O Kitten-TTS-Server é um projeto de código aberto que fornece um servidor com recursos aprimorados para o modelo leve KittenTTS. Os usuários podem usar esse projeto para criar seu próprio serviço de conversão de texto em fala (TTS). A principal vantagem desse projeto é que ele se baseia no modelo original, acrescentando um ...
O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.
O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo do processamento de fala. O modelo .....
O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto que suporta o bilinguismo chinês e inglês. Ele pode converter texto de diálogo de duas pessoas em fala natural e expressiva, adequada para produção de podcast de IA, pesquisa de idiomas e outros cenários. O modelo é baseado na tecnologia de codificação de baixa taxa de bits e suporta clonagem de fala de duas pessoas com amostragem zero e...
O FineShare é uma plataforma focada em tecnologia de áudio e vídeo com IA, oferecendo uma variedade de ferramentas para ajudar os usuários a criar conteúdo de voz, música e vídeo de alta qualidade. Os principais produtos do site incluem FineVoice, Singify e FineCam para geração e conversão de voz, criação de música com IA e câmera virtual...
O Xunfei Zhizuo é uma plataforma desenvolvida pela Xunfei para fornecer serviços de criação de conteúdo de inteligência artificial. Sua principal função é converter o texto inserido pelo usuário em fala, um processo geralmente chamado de "dublagem de IA" ou "síntese de fala". Os usuários podem escolher entre uma variedade de vozes virtuais predefinidas (ou seja, "âncoras")...
O ListenHub é uma plataforma que usa tecnologia de inteligência artificial para transformar rapidamente páginas da Web, documentos ou informações do usuário em podcasts. Ele suporta síntese de fala em chinês e inglês, e os usuários podem gerar áudio de podcast natural e suave simplesmente carregando um arquivo, digitando um tópico ou colando um link. A plataforma é fácil de operar e adequada para uso móvel...
O Higgs Audio é um projeto de conversão de texto em fala (TTS) de código aberto desenvolvido pela Boson AI, que se concentra na geração de falas de alta qualidade e emocionalmente ricas e em diálogos com vários caracteres. O projeto baseia-se em mais de 10 milhões de horas de treinamento de dados de áudio e oferece suporte à clonagem de fala de amostra zero, geração de diálogo natural e saída de fala multilíngue....
O Parrot TTS é uma extensão do Chrome projetada para converter texto da Web em fala natural. Ela usa tecnologia avançada de IA para proporcionar uma experiência de voz quase humana, resolvendo o problema das ferramentas tradicionais de conversão de texto em fala que soam mecânicas. Os usuários podem converter artigos, notícias ou materiais de pesquisa com um clique...
O AIdeaFlow Podcast é uma plataforma de geração de podcast baseada em IA que permite aos usuários transformar rapidamente o conteúdo de texto em áudio de podcast de alta qualidade. Ela suporta vários idiomas e mais de 120 vozes exclusivas para estudantes, profissionais e criadores de conteúdo. Os usuários simplesmente inserem o texto ou carregam um script,...
O CosyVoice é um modelo de geração de fala multilíngue de código aberto que se concentra na tecnologia de conversão de texto em fala (TTS) de alta qualidade. Ele suporta a síntese de fala em vários idiomas, fornecendo recursos como geração de fala com amostra zero, clonagem de fala em vários idiomas e controle de sentimento refinado. O CosyVoice 2.0 é comparado à versão anterior, significativamente...
O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...
O AIVocal é uma plataforma de processamento de áudio de IA gratuita que oferece conversão de texto em fala (TTS), conversão de fala em texto (STT), separação de voz humana e geração de podcast. Os usuários podem usá-la sem registro, e ela suporta 24 idiomas e mais de 900 tons naturais, o que é adequado para a produção de podcasts, audiolivros, dublagem de vídeo e assim por diante....
O SuperMaker AI é uma plataforma de criação on-line gratuita que ajuda os usuários a gerar rapidamente conteúdo de vídeo, música, imagem e voz de alta qualidade. Os usuários podem experimentar os principais recursos sem fazer login, e é fácil de usar, o que a torna adequada para criadores individuais e pequenas equipes. A plataforma usa tecnologia de inteligência artificial para criar textos, imagens ou...
O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, fornece...
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoção de fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com...
O Audibit é um projeto de código aberto, cuja função principal é transformar automaticamente o Hacker News, o TechCrunch e outros artigos populares sobre tecnologia em podcasts de áudio, para que os usuários possam ouvir informações pela Web ou por dispositivos móveis durante o trajeto para o trabalho, o exercício físico ou quando estiverem ocupados. O projeto usa Next.js e React para desenvolver o front-end, combinado com ...
voltar ao topo