O MOSS-TTSD é um modelo de geração de fala de diálogo de código aberto que suporta o bilinguismo chinês e inglês. Ele pode converter textos de diálogos entre duas pessoas em fala natural e expressiva, o que é adequado para a produção de podcasts de IA, pesquisa de idiomas etc. O modelo é baseado na tecnologia de codificação de baixo bit e suporta clonagem de amostra zero e geração de fala de disparo único de até 960 segundos. O modelo é baseado na tecnologia de codificação de baixa taxa de bits e suporta a clonagem de fala de duas pessoas com amostra zero e a geração de fala de disparo único de até 960 s. O MOSS-TTSD fornece os pesos completos do modelo e o código de inferência, e é gratuito para uso comercial. A versão mais recente, atualmente a v0.5, está disponível no GitHub e otimiza a mudança de timbre e a estabilidade do modelo.
Lista de funções
- Suporta a geração de voz de diálogo bilíngue, produzindo uma voz natural e expressiva.
- Obtenha clonagem de fala de duas pessoas com amostragem zero e faça a distinção precisa entre diferentes falantes em um diálogo.
- Suporta a geração de um único discurso longo de até 960 segundos, adequado para podcasts ou produção de conteúdo de formato longo.
- Oferece o Podever, uma ferramenta de geração de podcast que transforma PDFs, URLs ou textos longos em podcasts de alta qualidade.
- Pesos de modelo de código aberto, código de inferência e interfaces de API com suporte comercial gratuito.
- Fornecer scripts de ajuste fino do modelo, oferecer suporte ao ajuste fino completo do modelo e ao ajuste fino do LoRA, adaptar-se a conjuntos de dados personalizados.
Usando a Ajuda
Processo de instalação
A instalação do MOSS-TTSD precisa ser feita em um ambiente compatível com Python. Veja a seguir as etapas detalhadas da instalação:
- Criação de um ambiente virtual
Crie um ambiente Python separado usando conda ou pip, certificando-se de não interferir em outros projetos. Recomendamos o uso do Python 3.10. Execute o seguinte comando:conda create -n moss_ttsd python=3.10 -y conda activate moss_ttsd
- Clonagem da base de código
Faça o download da base de código do MOSS-TTSD no GitHub. Abra um terminal e execute-o:git clone https://github.com/OpenMOSS/MOSS-TTSD.git cd MOSS-TTSD
- Instalação de dependências
A base de código contém umrequirements.txt
que lista as dependências necessárias. Instale as dependências:pip install -r requirements.txt pip install flash-attn
Atenção:
flash-attn
é uma biblioteca para acelerar o mecanismo de atenção, que precisa ser suportado pelo ambiente de GPU. - Download dos pesos do modelo
Os pesos do modelo para o MOSS-TTSD podem ser baixados da página de lançamento do Hugging Face ou do GitHub. A versão recomendada é a v0.5. Coloque os pesos do modelo baixados no diretório raiz do projeto ou em um caminho especificado. - Verificar a instalação
Execute o script de amostra para verificar se o ambiente está configurado corretamente:python demo.py
Se for bem-sucedido, será gerado um arquivo de voz de diálogo simples.
Funções principais
1. geração de voz de diálogo
A função principal do MOSS-TTSD é converter texto de diálogo em fala. O usuário precisa preparar um arquivo de texto contendo um diálogo entre duas pessoas no formato do exemplo:
Speaker1: 你好,今天天气怎么样?
Speaker2: 很好,阳光明媚!
Execute o script de inferência para gerar a fala:
python inference.py --model_path <path_to_model> --input_text <path_to_text_file> --output_dir <output_directory>
Emite um arquivo de voz no formato WAV, que distingue automaticamente os tons dos dois alto-falantes.
2. clonagem de voz
O MOSS-TTSD oferece suporte à clonagem de fala com amostra zero. O usuário fornece um trecho de áudio (pelo menos 10 segundos) do locutor-alvo, e o modelo pode gerar a voz de diálogo desse timbre. Etapas da operação:
- Prepare o arquivo de áudio de destino (por exemplo
speaker1.wav
responder cantandospeaker2.wav
). - Modificar o arquivo de configuração
config.yaml
especifique o caminho do áudio:speaker1: path/to/speaker1.wav speaker2: path/to/speaker2.wav
- Execute o script de clonagem:
python clone_voice.py --config config.yaml --input_text dialogue.txt --output_dir cloned_output
3. geração de podcast (Podever)
O Podever é a ferramenta de geração de podcast do MOSS-TTSD que transforma textos longos, PDFs ou URLs em podcasts. Etapas de operação:
- Instale a extensão Podever:
pip install podever
- Prepare o arquivo de entrada (por exemplo, PDF ou URL).
- Executar comando:
python podever.py --input <input_file_or_url> --output podcast.wav
O Podever extrai automaticamente o texto e gera podcasts no estilo de diálogo entre duas pessoas, adequados para conteúdo científico popular ou livros lidos em voz alta.
4. ajuste fino do modelo
O usuário pode fazer o ajuste fino do modelo usando um conjunto de dados personalizado. As etapas são as seguintes:
- Prepare o conjunto de dados no formato JSON contendo o texto do diálogo e o áudio correspondente.
- Execute o script de ajuste fino:
python finetune/finetune.py --model_path <path_to_model> --data_dir <path_to_processed_data> --output_dir <output_directory> --training_config <training_config_file>
- Oferece suporte ao ajuste fino do LoRA para reduzir os requisitos de recursos de computação:
python finetune/finetune.py --model_path <path_to_model> --data_dir <path_to_processed_data> --output_dir <output_directory> --training_config <training_config_file> --lora_config <lora_config_file>
advertência
- Certifique-se de que a pontuação DNSMOS do áudio de entrada seja ≥ 2,8 para garantir a qualidade do som.
- O modelo pode não ser sensível o suficiente para retornos de diálogos curtos (por exemplo, "hum", "oh"), e recomenda-se que o locutor seja explicitamente identificado no texto.
- Requer pelo menos 12 GB de memória de GPU para ser executado; recomenda-se o uso de GPUs NVIDIA.
cenário do aplicativo
- Produção de podcast com IA
O MOSS-TTSD transforma artigos, livros ou conteúdo da Web em podcasts de diálogos entre duas pessoas. Os usuários só precisam fornecer o texto e a ferramenta Podever gera um áudio natural e suave para que os criadores de autopublicação produzam conteúdo rapidamente. - Ferramentas de aprendizado de idiomas
Os professores podem usar o MOSS-TTSD para gerar áudio de diálogo bilíngue para ajudar os alunos a praticar a audição e a fala. A função de clonagem de voz pode simular o timbre de pessoas reais para aumentar a diversão do aprendizado. - Assistência à acessibilidade
O MOSS-TTSD gera audiolivros ou noticiários de conversação para deficientes visuais. A geração de fala longa permite a saída de capítulos completos de uma só vez, reduzindo a frequência de operação. - pesquisa acadêmica
Os pesquisadores podem tirar proveito da natureza de código aberto do MOSS-TTSD para explorar técnicas de síntese de fala. O modelo suporta o ajuste fino e é adequado para o desenvolvimento de aplicativos de fala personalizados.
QA
- Quais são os idiomas suportados pelo MOSS-TTSD?
Atualmente, oferece suporte à geração de diálogos bilíngues em chinês e inglês, com a possibilidade de expansão para mais idiomas no futuro. - Como é possível melhorar a qualidade da geração de fala?
Use áudio de entrada de alta qualidade (DNSMOS ≥ 2.8) e certifique-se de que o texto do diálogo identifique claramente o locutor. O ajuste fino do modelo pode melhorar ainda mais os resultados. - Ele está disponível comercialmente?
Sim, o MOSS-TTSD está licenciado sob a licença Apache 2.0 e suporta o uso comercial gratuito, sujeito à conformidade legal e ética. - Que hardware é necessário para que o modelo seja executado?
Recomenda-se o uso de GPUs NVIDIA, com pelo menos 12 GB de memória de vídeo. As CPUs podem ser mais lentas e não são recomendadas para ambientes de produção.