Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Higgs Audio é um projeto de conversão de texto em fala (TTS) de código aberto desenvolvido pela Boson AI, focado na geração de fala de alta qualidade e emocionalmente rica e no diálogo com vários caracteres. O projeto baseia-se em mais de 10 milhões de horas de treinamento de dados de áudio e oferece suporte à clonagem de fala de amostra zero, geração de diálogo natural e saída de fala multilíngue. O Higgs Audio v2 usa uma arquitetura Dual-FFN inovadora e o Unified Audio Phrase Splitter para processar com eficiência as informações de texto e áudio e gerar efeitos de fala realistas. Ele tem um bom desempenho no benchmark EmergentTTS-Eval com uma taxa de ganho de expressão emocional de 75,7%, significativamente melhor do que outros modelos. O projeto fornece código detalhado e guias de instalação para desenvolvedores, pesquisadores e criadores, e é amplamente utilizado na criação de conteúdo de áudio, assistentes virtuais e educação.

 

Lista de funções

  • Geração de fala de alta qualidade: Converta texto em uma fala natural e rica em emoções que suporta uma ampla gama de entonação e expressão emocional.
  • Geração de diálogos com várias funções: suporta a geração de discursos com várias funções, simulando pausas, interrupções e sobreposições em diálogos naturais.
  • Clonagem de voz com amostra zero: gere rapidamente a voz do personagem-alvo a partir do áudio de referência sem treinamento adicional.
  • Suporte a vários idiomas: suporta a geração de fala em inglês, chinês, alemão, coreano e outros idiomas.
  • Combinação de música e fala: pode gerar música de fundo e fala ao mesmo tempo, o que é adequado para narração de histórias em áudio ou experiências imersivas.
  • Inferência eficiente: suporta a execução em dispositivos de borda, como o Jetson Orin Nano, com um baixo consumo de recursos.
  • Código-fonte aberto: forneça uma base de código e uma API completas, dê suporte aos desenvolvedores para que personalizem o desenvolvimento.

Usando a Ajuda

Processo de instalação

O Higgs Audio é um projeto de código aberto hospedado no GitHub. O processo de instalação é simples, mas requer algum suporte do ambiente de desenvolvimento. Abaixo estão as etapas detalhadas de instalação, aplicáveis a diferentes ambientes:

1. clonagem da base de código

Primeiro, clone o repositório GitHub do Higgs Audio localmente:

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio

2. ambiente de configuração

O Higgs Audio oferece várias maneiras de configurar o ambiente, incluindo ambientes virtuais, Conda e uv. Recomenda-se o Python 3.10 ou superior. Veja a seguir as etapas para configurar um ambiente virtual:

python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

Se você usar o Conda:

conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .

Para cenários de alto rendimento, é recomendável usar o vLLM Motor. Referência examples/vllm execute o seguinte comando para iniciar o servidor de API:

python -m vllm.entrypoints.openai.api_server --model bosonai/higgs-audio-v2-generation-3B-base --tensor-parallel-size 4 --gpu-memory-utilization 0.9

Requisitos de hardwarePara obter o melhor desempenho, recomenda-se uma GPU com pelo menos 24 GB de memória de vídeo (como a NVIDIA RTX 4090). Dispositivos de borda, como o Jetson Orin Nano, também podem executar modelos menores.

3. verificação da instalação

Após a conclusão da instalação, execute o seguinte código Python para verificar se o ambiente está configurado corretamente:

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine
engine = HiggsAudioServeEngine(
"bosonai/higgs-audio-v2-generation-3B-base",
"bosonai/higgs-audio-v2-tokenizer",
device="cuda"
)
output = engine.generate(content="Hello, welcome to Higgs Audio!", voice_profile="neutral")

Se um arquivo de áudio for gerado, a instalação foi bem-sucedida.

Função Fluxo de operação

Os principais recursos do Higgs Audio incluem conversão de texto em fala, geração de diálogos com vários caracteres e clonagem de voz. Veja a seguir as etapas para fazer isso:

1. conversão de texto em fala

O Higgs Audio oferece suporte à conversão de texto em fala natural, e a expressão emocional pode ser expressa por meio do voice_profile Controle de parâmetros. Por exemplo, para gerar uma voz com um tom "urgente":

curl http://localhost:8000/v1/audio/generation -H "Content-Type: application/json" -d '{"text": "Security alert: Unauthorized access detected", "voice_profile": "urgent"}'

Os usuários podem especificar diferentes rótulos de emoção (por exemplo happyesadeneutral), o modelo ajusta automaticamente o tom e o ritmo de acordo com a semântica do texto.

2) Geração de diálogo com vários atores

O Higgs Audio é bom para gerar diálogos com vários caracteres que simulam interações naturais em cenários da vida real. O usuário deve fornecer um texto contendo tags de caracteres, por exemplo:

dialogue = """
SPEAKER_0: Hey, have you tried Higgs Audio yet?
SPEAKER_1: Yeah, it’s amazing! The voices sound so real!
"""
output = engine.generate(content=dialogue, multi_speaker=True)

O modelo gera vozes diferentes com base em tags de caracteres, adicionando automaticamente pausas e mudanças de tom, o que o torna adequado para uso em audiolivros ou diálogos de jogos.

3. clonagem de fala com amostra zero

O usuário pode fornecer um trecho de áudio de referência e o modelo clonará seus recursos de fala. Exemplo:

output = engine.generate(
content="This is a test sentence.",
reference_audio="path/to/reference.wav",
voice_profile="cloned"
)

O áudio de referência deve ser uma única voz clara com duração recomendada de 5 a 10 segundos. A voz clonada pode ser usada para geração de áudio personalizado.

4. suporte multilíngue

O Higgs Audio oferece suporte à geração de fala multilíngue. Os usuários só precisam especificar o conteúdo do idioma no texto e o modelo se adaptará automaticamente. Por exemplo:

output = engine.generate(content="你好,欢迎体验Higgs Audio!", voice_profile="neutral")

Atualmente, há suporte para inglês, chinês, alemão e coreano, mas pode haver limitações no manuseio de números e símbolos chineses, que precisam ser otimizados ainda mais.

5. integração de música e fala

O Higgs Audio gera fala com música de fundo para experiências imersivas. Os usuários devem adicionar tags de música ao texto:

content = "[music_start] The stars shimmered above. [music_end] This is a magical night."
output = engine.generate(content=content, background_music=True)

O modelo gera música de fundo com base em tags e a mescla com a fala.

Precauções de uso

  • Otimização de hardwareExecução na GPU pode melhorar significativamente a velocidade de inferência. Os dispositivos de borda precisam usar modelos menores para reduzir o uso de recursos.
  • formato de entradaEntrada de texto: A entrada de texto precisa ser clara, evitando símbolos complexos ou erros de formatação para garantir uma geração eficaz.
  • Áudio de referênciaClonagem de voz: A clonagem de voz requer áudio de referência de alta qualidade para evitar a interferência de ruídos de fundo.
  • multilinguismoSímbolos complexos: algarismos chineses e sinais de porcentagem podem levar a uma geração ruim, e recomenda-se evitar símbolos complexos.

cenário do aplicativo

  1. Produção de audiolivros
    O Higgs Audio transforma textos de livros em audiolivros ricos em emoções, com suporte para diálogos com vários personagens e trilhas sonoras, adequados para editoras ou criadores individuais que produzem audiolivros de alta qualidade.
  2. Criação de conteúdo educacional
    Os professores podem usar o Higgs Audio para gerar fala ou áudio instrucional multilíngue de figuras históricas para aprimorar a imersão e a interatividade de suas aulas.
  3. desenvolvimento de jogos
    Os desenvolvedores podem usar o recurso de diálogo com vários personagens para gerar vozes dinâmicas de personagens para jogos que suportam interrupções naturais e expressões emocionais para aprimorar a experiência do jogo.
  4. Desenvolvimento de assistente virtual
    As empresas podem desenvolver assistentes virtuais baseados no Higgs Audio com voz personalizada para atendimento ao cliente ou dispositivos inteligentes.
  5. dublagem (produção de filmes)
    A clonagem de voz e o suporte a vários idiomas do Higgs Audio são ideais para gerar dublagens para produções de cinema e TV, adaptando-se rapidamente a diferentes personagens e idiomas.

QA

  1. Quais idiomas são suportados pelo Higgs Audio?
    Atualmente, suporta inglês, chinês, alemão, coreano e outros idiomas, com planos de expandir o suporte para mais idiomas no futuro.
  2. Como otimizar a estabilidade da clonagem de voz?
    Forneça áudio de referência claro e de uma única pessoa, com duração de 5 a 10 segundos, evitando o uso direto do áudio gerado como referência para manter o controle emocional.
  3. Ele requer uma GPU para ser executado?
    As GPUs aumentam o desempenho, mas modelos menores podem ser executados em dispositivos de ponta, como o Jetson Orin Nano, para aplicativos leves.
  4. Quais são as limitações da geração de fala chinesa?
    Os números e símbolos chineses podem causar uma geração ruim; recomenda-se simplificar o texto de entrada, que será otimizado em versões futuras.
  5. Como você lida com as distinções de voz em diálogos com vários personagens?
    Ao adicionar tags de caracteres (por exemplo, SPEAKER_0) ao texto, o modelo gera automaticamente diferentes discursos e simula o ritmo natural do diálogo.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Novos lançamentos

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil