Posição atual:fig. início » Biblioteca de ferramentas de IA

MOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngue

2025-07-31

Biblioteca de ferramentas de IA/modelo básico/modelo de fala

2.4 K 1

fazer uma cópia de

Link diretoVisualização móvel

O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto que suporta o bilinguismo chinês e inglês. Ele pode converter textos de diálogos entre duas pessoas em fala natural e expressiva, o que é adequado para a produção de podcasts de IA, pesquisa de idiomas etc. O modelo é baseado na tecnologia de codificação de baixo bit e suporta clonagem de amostra zero e geração de fala de disparo único de até 960 segundos. O modelo é baseado na tecnologia de codificação de baixa taxa de bits e suporta a clonagem de fala de duas pessoas com amostra zero e a geração de fala de disparo único de até 960 s. O MOSS-TTSD fornece os pesos completos do modelo e o código de inferência, e é gratuito para uso comercial. A versão mais recente, atualmente a v0.5, está disponível no GitHub e otimiza a mudança de timbre e a estabilidade do modelo.

Lista de funções

Suporta a geração de voz de diálogo bilíngue, produzindo uma voz natural e expressiva.
Obtenha clonagem de fala de duas pessoas com amostragem zero e faça a distinção precisa entre diferentes falantes em um diálogo.
Suporta a geração de um único discurso longo de até 960 segundos, adequado para podcasts ou produção de conteúdo de formato longo.
Oferece o Podever, uma ferramenta de geração de podcast que transforma PDFs, URLs ou textos longos em podcasts de alta qualidade.
Pesos de modelo de código aberto, código de inferência e interfaces de API com suporte comercial gratuito.
Fornecer scripts de ajuste fino do modelo, oferecer suporte ao ajuste fino completo do modelo e ao ajuste fino do LoRA, adaptar-se a conjuntos de dados personalizados.

Usando a Ajuda

Processo de instalação

A instalação do MOSS-TTSD precisa ser feita em um ambiente compatível com Python. Veja a seguir as etapas detalhadas da instalação:

Criação de um ambiente virtual
Crie um ambiente Python separado usando conda ou pip, certificando-se de não interferir em outros projetos. Recomendamos o uso do Python 3.10. Execute o seguinte comando:
```
conda create -n moss_ttsd python=3.10 -y
conda activate moss_ttsd
```

Clonagem da base de código
Faça o download da base de código do MOSS-TTSD no GitHub. Abra um terminal e execute-o:
```
git clone https://github.com/OpenMOSS/MOSS-TTSD.git
cd MOSS-TTSD
```
Instalação de dependências
A base de código contém um requirements.txt que lista as dependências necessárias. Instale as dependências:
```
pip install -r requirements.txt
pip install flash-attn
```
Atenção:flash-attn é uma biblioteca para acelerar o mecanismo de atenção, que precisa ser suportado pelo ambiente de GPU.
Download dos pesos do modelo
Os pesos do modelo para o MOSS-TTSD podem ser baixados da página de lançamento do Hugging Face ou do GitHub. A versão recomendada é a v0.5. Coloque os pesos do modelo baixados no diretório raiz do projeto ou em um caminho especificado.
Verificar a instalação
Execute o script de amostra para verificar se o ambiente está configurado corretamente:
```
python demo.py
```
Se for bem-sucedido, será gerado um arquivo de voz de diálogo simples.

Funções principais

1. geração de voz de diálogo

A função principal do MOSS-TTSD é converter texto de diálogo em fala. O usuário precisa preparar um arquivo de texto contendo um diálogo entre duas pessoas no formato do exemplo:

Speaker1: 你好，今天天气怎么样？
Speaker2: 很好，阳光明媚！

Execute o script de inferência para gerar a fala:

python inference.py --model_path <path_to_model> --input_text <path_to_text_file> --output_dir <output_directory>

Emite um arquivo de voz no formato WAV, que distingue automaticamente os tons dos dois alto-falantes.

2. clonagem de voz

O MOSS-TTSD oferece suporte à clonagem de fala com amostra zero. O usuário fornece um trecho de áudio (pelo menos 10 segundos) do locutor-alvo, e o modelo pode gerar a voz de diálogo desse timbre. Etapas da operação:

Prepare o arquivo de áudio de destino (por exemplo speaker1.wav 和 speaker2.wav）。
Modificar o arquivo de configuração config.yamlespecifique o caminho do áudio:
```
speaker1: path/to/speaker1.wav
speaker2: path/to/speaker2.wav
```

Execute o script de clonagem:

python clone_voice.py --config config.yaml --input_text dialogue.txt --output_dir cloned_output

3. geração de podcast (Podever)

O Podever é a ferramenta de geração de podcast do MOSS-TTSD que transforma textos longos, PDFs ou URLs em podcasts. Etapas de operação:

Instale a extensão Podever:
```
pip install podever
```
Prepare o arquivo de entrada (por exemplo, PDF ou URL).

Executar comando:

python podever.py --input <input_file_or_url> --output podcast.wav

O Podever extrai automaticamente o texto e gera podcasts no estilo de diálogo entre duas pessoas, adequados para conteúdo científico popular ou livros lidos em voz alta.

4. ajuste fino do modelo

O usuário pode fazer o ajuste fino do modelo usando um conjunto de dados personalizado. As etapas são as seguintes:

Prepare o conjunto de dados no formato JSON contendo o texto do diálogo e o áudio correspondente.

Execute o script de ajuste fino:

python finetune/finetune.py --model_path <path_to_model> --data_dir <path_to_processed_data> --output_dir <output_directory> --training_config <training_config_file>

Oferece suporte ao ajuste fino do LoRA para reduzir os requisitos de recursos de computação:

python finetune/finetune.py --model_path <path_to_model> --data_dir <path_to_processed_data> --output_dir <output_directory> --training_config <training_config_file> --lora_config <lora_config_file>

advertência

Certifique-se de que a pontuação DNSMOS do áudio de entrada seja ≥ 2,8 para garantir a qualidade do som.
O modelo pode não ser sensível o suficiente para retornos de diálogos curtos (por exemplo, "hum", "oh"), e recomenda-se que o locutor seja explicitamente identificado no texto.
Requer pelo menos 12 GB de memória de GPU para ser executado; recomenda-se o uso de GPUs NVIDIA.

cenário do aplicativo

Produção de podcast com IA
O MOSS-TTSD transforma artigos, livros ou conteúdo da Web em podcasts de diálogos entre duas pessoas. Os usuários só precisam fornecer o texto e a ferramenta Podever gera um áudio natural e suave para que os criadores de autopublicação produzam conteúdo rapidamente.
Ferramentas de aprendizado de idiomas
Os professores podem usar o MOSS-TTSD para gerar áudio de diálogo bilíngue para ajudar os alunos a praticar a audição e a fala. A função de clonagem de voz pode simular o timbre de pessoas reais para aumentar a diversão do aprendizado.
Assistência à acessibilidade
O MOSS-TTSD gera audiolivros ou noticiários de conversação para deficientes visuais. A geração de fala longa permite a saída de capítulos completos de uma só vez, reduzindo a frequência de operação.
pesquisa acadêmica
Os pesquisadores podem tirar proveito da natureza de código aberto do MOSS-TTSD para explorar técnicas de síntese de fala. O modelo suporta o ajuste fino e é adequado para o desenvolvimento de aplicativos de fala personalizados.

QA

Quais são os idiomas suportados pelo MOSS-TTSD?
Atualmente, oferece suporte à geração de diálogos bilíngues em chinês e inglês, com a possibilidade de expansão para mais idiomas no futuro.
Como é possível melhorar a qualidade da geração de fala?
Use áudio de entrada de alta qualidade (DNSMOS ≥ 2.8) e certifique-se de que o texto do diálogo identifique claramente o locutor. O ajuste fino do modelo pode melhorar ainda mais os resultados.
Ele está disponível comercialmente?
Sim, o MOSS-TTSD está licenciado sob a licença Apache 2.0 e suporta o uso comercial gratuito, sujeito à conformidade legal e ética.
Que hardware é necessário para que o modelo seja executado?
Recomenda-se o uso de GPUs NVIDIA, com pelo menos 12 GB de memória de vídeo. As CPUs podem ser mais lentas e não são recomendadas para ambientes de produção.

Projeto de código aberto de IA Conversão de texto em fala com IA

Ferramentas de produtividade de IA » MOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngue Publicado em 2025-07-31. Se você achar que o URL está desatualizado ou inacessível, entre em contato conosco.

0Marcado

0Recomendado

MOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngue

Lista de funções

Usando a Ajuda

Processo de instalação

Funções principais

1. geração de voz de diálogo

2. clonagem de voz

3. geração de podcast (Podever)

4. ajuste fino do modelo

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Seleção → Redação → Publicação, totalmente automatizada!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

MOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngue

Lista de funções

Usando a Ajuda

Processo de instalação

Funções principais

1. geração de voz de diálogo

2. clonagem de voz

3. geração de podcast (Podever)

4. ajuste fino do modelo

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Seleção → Redação → Publicação, totalmente automatizada!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida