O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto com os seguintes recursos principais:
- Geração de diálogo bilíngueSuporte à conversão de fala natural de textos de diálogo em chinês e inglês para duas pessoas com saída expressiva.
- clonagem de fala de amostra zeroÉ necessário apenas 10 segundos de áudio alvo para clonar tons e distinguir com precisão entre diferentes falantes em um diálogo.
- Geração de fala longaGeração de até 960 segundos de voz em uma única passagem, adequada para podcasts ou produção de conteúdo longo.
- Ferramentas integradas de podcastingTransforme PDFs, URLs ou texto diretamente em podcasts no estilo de diálogo para duas pessoas com o Podever.
- Suporte comercial e de código aberto: Os pesos completos do modelo, o código de inferência e as APIs estão disponíveis, permitindo o uso comercial gratuito.
- Modelagem do ajuste finoSuporte para ajuste fino de modelo completo ou LoRA, adaptado a conjuntos de dados personalizados.
Essa resposta foi extraída do artigoMOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngueO




























