Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

Conversão de texto em fala com IA

 Enviar site

VibeVoice-1.5B: um modelo de geração de fala para diálogos de áudio longos com várias funções da Microsoft
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...
08-27 4.3 K2Recomendado
Kitten-TTS-Server: um serviço de conversão de texto em fala leve e autoimplantável
O Kitten-TTS-Server é um projeto de código aberto que fornece um servidor com recursos aprimorados para o modelo leve KittenTTS. Os usuários podem usar esse projeto para criar seu próprio serviço de conversão de texto em fala (TTS). A principal vantagem desse projeto é que ele se baseia no modelo original, acrescentando uma página da Web intuitiva ...
08-09 3.6 K0Recomendado
KittenTTS: um modelo leve de conversão de texto em fala
O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.
08-06 2.7 K0Recomendado
OpusLM_7B_Anneal: um modelo unificado eficiente para reconhecimento e síntese de fala
O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo de processamento de fala. O modelo é baseado em...
08-01 1.5 K0Recomendado
MOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngue
O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto que suporta o bilinguismo chinês e inglês. Ele pode converter texto de diálogo de duas pessoas em fala natural e expressiva, adequada para a produção de podcasts de IA, pesquisa de idiomas e outros cenários. O modelo é baseado na tecnologia de codificação de baixa taxa de bits e suporta clonagem de fala de duas pessoas com amostra zero e geração de fala única de até 960 segundos.
07-31 2.2 K0Recomendado
FineShare: uma ferramenta de criação para gerar voz e música de IA
O FineShare é uma plataforma focada em tecnologia de áudio e vídeo com IA, oferecendo uma variedade de ferramentas para ajudar os usuários a criar conteúdo de voz, música e vídeo de alta qualidade. Os principais produtos do site incluem FineVoice, Singify e FineCam para geração e conversão de voz, criação de música com IA e câmera virtual...
07-29 1.9 K0Recomendado
CyberSmart: conversão de texto em fala e vídeo humano digital
Xunfei Zhizuo é uma plataforma desenvolvida pela Xunfei para fornecer serviços de criação de conteúdo de inteligência artificial. Sua principal função é converter o texto inserido pelo usuário em fala, um processo geralmente chamado de “dublagem de IA” ou “síntese de fala”. Os usuários podem escolher entre uma variedade de vozes virtuais pré-programadas (ou seja, “âncoras”) com estilos diferentes, como noticiários...
07-27 2.0 K0Recomendado
ListenHub: uma ferramenta para transformar rapidamente páginas da Web e documentos em podcasts de IA
O ListenHub é uma plataforma que usa tecnologia de inteligência artificial para transformar rapidamente páginas da Web, documentos ou informações do usuário em podcasts. Ela suporta síntese de fala em chinês e inglês, e os usuários podem gerar áudio de podcast natural e suave simplesmente carregando um arquivo, digitando um tópico ou colando um link. A plataforma é fácil de operar e adequada para uso móvel, o que a torna conveniente para os usuários receberem durante o trajeto, exercícios ou tempo livre...
07-27 2.6 K0Recomendado
Higgs Audio: uma ferramenta de código aberto para gerar fala de alta qualidade e diálogo com vários caracteres
Higgs Audio 是由 Boson AI 开发的一个开源文本转语音（TTS）项目，专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练，支持零样本语音克隆、自然对话生成和多语言语音输出。Higgs A...
07-25 3.8 K0Recomendado
Parrot TTS: uma ferramenta de leitura que transforma texto da Web em fala natural
O Parrot TTS é uma extensão do Chrome projetada para converter texto da Web em fala natural. Ela usa tecnologia avançada de IA para proporcionar uma experiência de voz quase humana, resolvendo o problema das ferramentas tradicionais de conversão de texto em fala que soam mecânicas. Os usuários podem converter artigos, notícias ou materiais de pesquisa em áudio com um clique, o que é adequado para multitarefas...
07-24 1.6 K0Recomendado
AIdeaFlow Podcast: uma ferramenta para transformar rapidamente texto em áudio de podcast profissional
O AIdeaFlow Podcast é uma plataforma de geração de podcast baseada em IA que permite aos usuários transformar rapidamente o conteúdo de texto em áudio de podcast de alta qualidade. Ela suporta vários idiomas e mais de 120 vozes exclusivas para estudantes, profissionais e criadores de conteúdo. Os usuários simplesmente inserem o texto ou carregam um script, e a plataforma gera automaticamente um par natural de...
07-20 1.4 K0Recomendado
CosyVoice: ferramenta de geração e clonagem multilíngue de código aberto Ali
CosyVoice 是一个开源的多语言语音生成模型，专注于高质量的文本转语音（TTS）技术。它支持多种语言的语音合成，提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本，显著降低了30%到...
07-09 3.2 K0Recomendado
Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue
O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.
07-05 3.8 K0Recomendado
Kyutai: ferramenta de conversão de fala em texto em tempo real
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...
07-05 3.6 K1Recomendado
AIVocal: uma ferramenta de IA gratuita para gerar podcasts e processar áudio
O AIVocal é uma plataforma de processamento de áudio de IA gratuita que oferece conversão de texto em fala (TTS), conversão de fala em texto (STT), separação de voz humana e geração de podcast. Os usuários podem usá-la sem registro e ela é compatível com 24 idiomas e mais de 900 tons naturais, o que é adequado para a produção de podcasts, audiolivros, dublagem de vídeo e assim por diante. A interface da plataforma é intuitiva e...
06-27 2.5 K0Recomendado
SuperMaker AI: ferramenta de criação gratuita para gerar vídeos, músicas e imagens
O SuperMaker AI é uma plataforma de criação on-line gratuita que ajuda os usuários a gerar rapidamente conteúdo de vídeo, música, imagem e voz de alta qualidade. Os usuários podem experimentar os principais recursos sem fazer login, e é fácil de operar, o que o torna adequado para criadores individuais e pequenas equipes. A plataforma usa tecnologia de inteligência artificial para transformar texto, imagens ou ideias criativas em conteúdo de nível profissional, com resultados...
06-11 2.7 K0Recomendado
Muyan-TTS: treinamento e síntese de fala em podcasts personalizados
Muyan-TTS 是一个专为播客场景设计的开源文本转语音（TTS）模型。它通过超过10万小时的播客音频数据预训练，支持零样本语音合成，生成高质量的自然语音。模型基于 Llama-3.2-3B 构建，结合 SoVITS 解码器，提供高效的语...
05-06 2.9 K0Recomendado
Kimi-Audio: processamento de áudio de código aberto e modelo de base de diálogo
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoções na fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com uma arquitetura híbrida inovadora...
05-05 4.3 K0Recomendado
Audibit: transformando artigos populares de tecnologia em podcasts de áudio prontos para serem ouvidos
O Audibit é um projeto de código aberto, cuja função principal é transformar automaticamente o Hacker News, o TechCrunch e outros artigos populares sobre tecnologia em podcasts de áudio, para que os usuários possam ouvir informações pela Web ou por dispositivos móveis durante o trajeto para o trabalho, o exercício físico ou quando estiverem ocupados. O projeto usa Next.js e React para desenvolver o front-end, combinado com ...
05-05 2.1 K0Recomendado