Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto que suporta o bilinguismo chinês e inglês. Ele pode converter textos de diálogos entre duas pessoas em fala natural e expressiva, o que é adequado para a produção de podcasts de IA, pesquisa de idiomas etc. O modelo é baseado na tecnologia de codificação de baixo bit e suporta clonagem de amostra zero e geração de fala de disparo único de até 960 segundos. O modelo é baseado na tecnologia de codificação de baixa taxa de bits e suporta a clonagem de fala de duas pessoas com amostra zero e a geração de fala de disparo único de até 960 s. O MOSS-TTSD fornece os pesos completos do modelo e o código de inferência, e é gratuito para uso comercial. A versão mais recente, atualmente a v0.5, está disponível no GitHub e otimiza a mudança de timbre e a estabilidade do modelo.

 

Lista de funções

  • Suporta a geração de voz de diálogo bilíngue, produzindo uma voz natural e expressiva.
  • Obtenha clonagem de fala de duas pessoas com amostragem zero e faça a distinção precisa entre diferentes falantes em um diálogo.
  • Suporta a geração de um único discurso longo de até 960 segundos, adequado para podcasts ou produção de conteúdo de formato longo.
  • Oferece o Podever, uma ferramenta de geração de podcast que transforma PDFs, URLs ou textos longos em podcasts de alta qualidade.
  • Pesos de modelo de código aberto, código de inferência e interfaces de API com suporte comercial gratuito.
  • Fornecer scripts de ajuste fino do modelo, oferecer suporte ao ajuste fino completo do modelo e ao ajuste fino do LoRA, adaptar-se a conjuntos de dados personalizados.

Usando a Ajuda

Processo de instalação

A instalação do MOSS-TTSD precisa ser feita em um ambiente compatível com Python. Veja a seguir as etapas detalhadas da instalação:

  1. Criação de um ambiente virtual
    Crie um ambiente Python separado usando conda ou pip, certificando-se de não interferir em outros projetos. Recomendamos o uso do Python 3.10. Execute o seguinte comando:

    conda create -n moss_ttsd python=3.10 -y
    conda activate moss_ttsd
    

  1. Clonagem da base de código
    Faça o download da base de código do MOSS-TTSD no GitHub. Abra um terminal e execute-o:

    git clone https://github.com/OpenMOSS/MOSS-TTSD.git
    cd MOSS-TTSD
    
  2. Instalação de dependências
    A base de código contém um requirements.txt que lista as dependências necessárias. Instale as dependências:

    pip install -r requirements.txt
    pip install flash-attn
    

    Atenção:flash-attn é uma biblioteca para acelerar o mecanismo de atenção, que precisa ser suportado pelo ambiente de GPU.

  3. Download dos pesos do modelo
    Os pesos do modelo para o MOSS-TTSD podem ser baixados da página de lançamento do Hugging Face ou do GitHub. A versão recomendada é a v0.5. Coloque os pesos do modelo baixados no diretório raiz do projeto ou em um caminho especificado.
  4. Verificar a instalação
    Execute o script de amostra para verificar se o ambiente está configurado corretamente:

    python demo.py
    

    Se for bem-sucedido, será gerado um arquivo de voz de diálogo simples.

Funções principais

1. geração de voz de diálogo

A função principal do MOSS-TTSD é converter texto de diálogo em fala. O usuário precisa preparar um arquivo de texto contendo um diálogo entre duas pessoas no formato do exemplo:

Speaker1: 你好,今天天气怎么样?
Speaker2: 很好,阳光明媚!

Execute o script de inferência para gerar a fala:

python inference.py --model_path <path_to_model> --input_text <path_to_text_file> --output_dir <output_directory>

Emite um arquivo de voz no formato WAV, que distingue automaticamente os tons dos dois alto-falantes.

2. clonagem de voz

O MOSS-TTSD oferece suporte à clonagem de fala com amostra zero. O usuário fornece um trecho de áudio (pelo menos 10 segundos) do locutor-alvo, e o modelo pode gerar a voz de diálogo desse timbre. Etapas da operação:

  • Prepare o arquivo de áudio de destino (por exemplo speaker1.wav responder cantando speaker2.wav).
  • Modificar o arquivo de configuração config.yamlespecifique o caminho do áudio:
    speaker1: path/to/speaker1.wav
    speaker2: path/to/speaker2.wav
    
  • Execute o script de clonagem:
    python clone_voice.py --config config.yaml --input_text dialogue.txt --output_dir cloned_output
    

3. geração de podcast (Podever)

O Podever é a ferramenta de geração de podcast do MOSS-TTSD que transforma textos longos, PDFs ou URLs em podcasts. Etapas de operação:

  • Instale a extensão Podever:
    pip install podever
    
  • Prepare o arquivo de entrada (por exemplo, PDF ou URL).
  • Executar comando:
    python podever.py --input <input_file_or_url> --output podcast.wav
    

O Podever extrai automaticamente o texto e gera podcasts no estilo de diálogo entre duas pessoas, adequados para conteúdo científico popular ou livros lidos em voz alta.

4. ajuste fino do modelo

O usuário pode fazer o ajuste fino do modelo usando um conjunto de dados personalizado. As etapas são as seguintes:

  • Prepare o conjunto de dados no formato JSON contendo o texto do diálogo e o áudio correspondente.
  • Execute o script de ajuste fino:
    python finetune/finetune.py --model_path <path_to_model> --data_dir <path_to_processed_data> --output_dir <output_directory> --training_config <training_config_file>
    
  • Oferece suporte ao ajuste fino do LoRA para reduzir os requisitos de recursos de computação:
    python finetune/finetune.py --model_path <path_to_model> --data_dir <path_to_processed_data> --output_dir <output_directory> --training_config <training_config_file> --lora_config <lora_config_file>
    

advertência

  • Certifique-se de que a pontuação DNSMOS do áudio de entrada seja ≥ 2,8 para garantir a qualidade do som.
  • O modelo pode não ser sensível o suficiente para retornos de diálogos curtos (por exemplo, "hum", "oh"), e recomenda-se que o locutor seja explicitamente identificado no texto.
  • Requer pelo menos 12 GB de memória de GPU para ser executado; recomenda-se o uso de GPUs NVIDIA.

cenário do aplicativo

  1. Produção de podcast com IA
    O MOSS-TTSD transforma artigos, livros ou conteúdo da Web em podcasts de diálogos entre duas pessoas. Os usuários só precisam fornecer o texto e a ferramenta Podever gera um áudio natural e suave para que os criadores de autopublicação produzam conteúdo rapidamente.
  2. Ferramentas de aprendizado de idiomas
    Os professores podem usar o MOSS-TTSD para gerar áudio de diálogo bilíngue para ajudar os alunos a praticar a audição e a fala. A função de clonagem de voz pode simular o timbre de pessoas reais para aumentar a diversão do aprendizado.
  3. Assistência à acessibilidade
    O MOSS-TTSD gera audiolivros ou noticiários de conversação para deficientes visuais. A geração de fala longa permite a saída de capítulos completos de uma só vez, reduzindo a frequência de operação.
  4. pesquisa acadêmica
    Os pesquisadores podem tirar proveito da natureza de código aberto do MOSS-TTSD para explorar técnicas de síntese de fala. O modelo suporta o ajuste fino e é adequado para o desenvolvimento de aplicativos de fala personalizados.

QA

  1. Quais são os idiomas suportados pelo MOSS-TTSD?
    Atualmente, oferece suporte à geração de diálogos bilíngues em chinês e inglês, com a possibilidade de expansão para mais idiomas no futuro.
  2. Como é possível melhorar a qualidade da geração de fala?
    Use áudio de entrada de alta qualidade (DNSMOS ≥ 2.8) e certifique-se de que o texto do diálogo identifique claramente o locutor. O ajuste fino do modelo pode melhorar ainda mais os resultados.
  3. Ele está disponível comercialmente?
    Sim, o MOSS-TTSD está licenciado sob a licença Apache 2.0 e suporta o uso comercial gratuito, sujeito à conformidade legal e ética.
  4. Que hardware é necessário para que o modelo seja executado?
    Recomenda-se o uso de GPUs NVIDIA, com pelo menos 12 GB de memória de vídeo. As CPUs podem ser mais lentas e não são recomendadas para ambientes de produção.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil