Quais são os principais recursos do MOSS-TTSD?

2025-08-19

358

O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto com os seguintes recursos principais:

Geração de diálogo bilíngueSuporte à conversão de fala natural de textos de diálogo em chinês e inglês para duas pessoas com saída expressiva.
clonagem de fala de amostra zeroÉ necessário apenas 10 segundos de áudio alvo para clonar tons e distinguir com precisão entre diferentes falantes em um diálogo.
Geração de fala longaGeração de até 960 segundos de voz em uma única passagem, adequada para podcasts ou produção de conteúdo longo.
Ferramentas integradas de podcastingTransforme PDFs, URLs ou texto diretamente em podcasts no estilo de diálogo para duas pessoas com o Podever.
Suporte comercial e de código aberto: Os pesos completos do modelo, o código de inferência e as APIs estão disponíveis, permitindo o uso comercial gratuito.
Modelagem do ajuste finoSuporte para ajuste fino de modelo completo ou LoRA, adaptado a conjuntos de dados personalizados.

Ferramenta de IA da estação de consulta rápida