Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

Conversão de texto em fala com IA

 Enviar site

VibeVoice-1.5B: um modelo de geração de fala para diálogos de áudio longos com várias funções da Microsoft
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...
08-27 6.3 K3Recomendado
Kitten-TTS-Server: um serviço de conversão de texto em fala leve e autoimplantável
O Kitten-TTS-Server é um projeto de código aberto que fornece um servidor com recursos aprimorados para o modelo leve KittenTTS. Os usuários podem usar esse projeto para criar seu próprio serviço de conversão de texto em fala (TTS). A principal vantagem desse projeto é que ele se baseia no modelo original, acrescentando uma página da Web intuitiva ...
08-09 5.8 K0Recomendado
KittenTTS: um modelo leve de conversão de texto em fala
O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.
08-06 5.0 K0Recomendado
OpusLM_7B_Anneal: um modelo unificado eficiente para reconhecimento e síntese de fala
O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo de processamento de fala. O modelo é baseado em...
08-01 2.9 K0Recomendado
MOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngue
O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto que suporta o bilinguismo chinês e inglês. Ele pode converter texto de diálogo de duas pessoas em fala natural e expressiva, adequada para a produção de podcasts de IA, pesquisa de idiomas e outros cenários. O modelo é baseado na tecnologia de codificação de baixa taxa de bits e suporta clonagem de fala de duas pessoas com amostra zero e geração de fala única de até 960 segundos.
07-31 4.0 K0Recomendado
FineShare: uma ferramenta de criação para gerar voz e música de IA
O FineShare é uma plataforma focada em tecnologia de áudio e vídeo com IA, oferecendo uma variedade de ferramentas para ajudar os usuários a criar conteúdo de voz, música e vídeo de alta qualidade. Os principais produtos do site incluem FineVoice, Singify e FineCam para geração e conversão de voz, criação de música com IA e câmera virtual...
07-29 3.7 K0Recomendado
CyberSmart: conversão de texto em fala e vídeo humano digital
Xunfei Zhizuo é uma plataforma desenvolvida pela Xunfei para fornecer serviços de criação de conteúdo de inteligência artificial. Sua principal função é converter o texto inserido pelo usuário em fala, um processo geralmente chamado de “dublagem de IA” ou “síntese de fala”. Os usuários podem escolher entre uma variedade de vozes virtuais pré-programadas (ou seja, “âncoras”) com estilos diferentes, como noticiários...
07-27 3.8 K0Recomendado
ListenHub: uma ferramenta para transformar rapidamente páginas da Web e documentos em podcasts de IA
O ListenHub é uma plataforma que usa tecnologia de inteligência artificial para transformar rapidamente páginas da Web, documentos ou informações do usuário em podcasts. Ela suporta síntese de fala em chinês e inglês, e os usuários podem gerar áudio de podcast natural e suave simplesmente carregando um arquivo, digitando um tópico ou colando um link. A plataforma é fácil de operar e adequada para uso móvel, o que a torna conveniente para os usuários receberem durante o trajeto, exercícios ou tempo livre...
07-27 4.6 K0Recomendado
Higgs Audio: uma ferramenta de código aberto para gerar fala de alta qualidade e diálogo com vários caracteres
O Higgs Audio é um projeto de código aberto de conversão de texto em fala (TTS) desenvolvido pela Boson AI, com foco na geração de fala de alta qualidade, emocionalmente rica e diálogo com vários caracteres. O projeto baseia-se em mais de 10 milhões de horas de treinamento de dados de áudio e oferece suporte à clonagem de fala de amostra zero, geração de diálogo natural e saída de fala multilíngue.
07-25 5.8 K0Recomendado
Parrot TTS: uma ferramenta de leitura que transforma texto da Web em fala natural
O Parrot TTS é uma extensão do Chrome projetada para converter texto da Web em fala natural. Ela usa tecnologia avançada de IA para proporcionar uma experiência de voz quase humana, resolvendo o problema das ferramentas tradicionais de conversão de texto em fala que soam mecânicas. Os usuários podem converter artigos, notícias ou materiais de pesquisa em áudio com um clique, o que é adequado para multitarefas...
07-24 3.2 K0Recomendado
AIdeaFlow Podcast: uma ferramenta para transformar rapidamente texto em áudio de podcast profissional
O AIdeaFlow Podcast é uma plataforma de geração de podcast baseada em IA que permite aos usuários transformar rapidamente o conteúdo de texto em áudio de podcast de alta qualidade. Ela suporta vários idiomas e mais de 120 vozes exclusivas para estudantes, profissionais e criadores de conteúdo. Os usuários simplesmente inserem o texto ou carregam um script, e a plataforma gera automaticamente um par natural de...
07-20 2.8 K0Recomendado
CosyVoice: ferramenta de geração e clonagem multilíngue de código aberto Ali
O CosyVoice é um modelo de geração de fala multilíngue de código aberto que se concentra na tecnologia de conversão de texto em fala (TTS) de alta qualidade. Ele oferece suporte à síntese de fala em vários idiomas, fornecendo recursos como geração de fala com amostra zero, clonagem de fala em vários idiomas e controle de sentimento refinado. O CosyVoice 2.0 é comparado à versão anterior, reduzindo significativamente o 30% para...
07-09 5.1 K0Recomendado
Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue
O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.
07-05 5.8 K0Recomendado
Kyutai: ferramenta de conversão de fala em texto em tempo real
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...
07-05 5.4 K1Recomendado
AIVocal: uma ferramenta de IA gratuita para gerar podcasts e processar áudio
O AIVocal é uma plataforma de processamento de áudio de IA gratuita que oferece conversão de texto em fala (TTS), conversão de fala em texto (STT), separação de voz humana e geração de podcast. Os usuários podem usá-la sem registro e ela é compatível com 24 idiomas e mais de 900 tons naturais, o que é adequado para a produção de podcasts, audiolivros, dublagem de vídeo e assim por diante. A interface da plataforma é intuitiva e...
06-27 4.1 K0Recomendado
SuperMaker AI: ferramenta de criação gratuita para gerar vídeos, músicas e imagens
O SuperMaker AI é uma plataforma de criação on-line gratuita que ajuda os usuários a gerar rapidamente conteúdo de vídeo, música, imagem e voz de alta qualidade. Os usuários podem experimentar os principais recursos sem fazer login, e é fácil de operar, o que o torna adequado para criadores individuais e pequenas equipes. A plataforma usa tecnologia de inteligência artificial para transformar texto, imagens ou ideias criativas em conteúdo de nível profissional, com resultados...
06-11 4.7 K0Recomendado
Muyan-TTS: treinamento e síntese de fala em podcasts personalizados
O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, oferece uma fala eficiente...
05-06 4.6 K0Recomendado
Kimi-Audio: processamento de áudio de código aberto e modelo de base de diálogo
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoções na fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com uma arquitetura híbrida inovadora...
05-05 6.5 K0Recomendado
Audibit: transformando artigos populares de tecnologia em podcasts de áudio prontos para serem ouvidos
O Audibit é um projeto de código aberto, cuja função principal é transformar automaticamente o Hacker News, o TechCrunch e outros artigos populares sobre tecnologia em podcasts de áudio, para que os usuários possam ouvir informações pela Web ou por dispositivos móveis durante o trajeto para o trabalho, o exercício físico ou quando estiverem ocupados. O projeto usa Next.js e React para desenvolver o front-end, combinado com ...
05-05 3.5 K0Recomendado