O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um desambiguador de fala contínuo (acústico e semântico) executado a uma taxa de quadros ultrabaixa de 7,5 Hz, o que melhora muito a eficiência computacional do processamento de sequências longas e, ao mesmo tempo, preserva efetivamente a fidelidade do áudio. O modelo baseia-se em um modelo de linguagem em larga escala (LLM) para entender o contexto textual e o fluxo do diálogo, e combina isso com um modelo de difusão para gerar detalhes acústicos de alta fidelidade. O VibeVoice é capaz de sintetizar até 90 minutos de áudio por vez e pode suportar até quatro alto-falantes diferentes em um único segmento de áudio, rompendo a limitação de muitos modelos anteriores que suportam apenas um ou dois alto-falantes. O modelo é treinado principalmente com dados em inglês e chinês, e suporta síntese entre idiomas e síntese básica de canto.
Lista de funções
- Síntese de áudio ultralongaSuporte para gerar até 90 minutos de áudio de fala coerente em uma única tarefa.
- Mais suporte ao locutorCapacidade de simular o diálogo natural entre até 4 alto-falantes diferentes no mesmo áudio.
- Voz expressivaA fala gerada é mais natural em termos de emoção e expressão, eliminando a sensação mecânica do modelo TTS tradicional.
- Síntese entre idiomas e cantoEmbora os principais dados de treinamento sejam chinês e inglês, o modelo tem algum recurso de síntese entre idiomas (por exemplo, inserir inglês para gerar fala em chinês) e capacidade básica de canto.
- Código aberto e acessívelO modelo tem código aberto sob a licença MIT, é amigável para a comunidade de pesquisa e fornece uma base de código correspondente e relatórios técnicos para uso dos desenvolvedores.
- Arquitetura eficienteProcessamento de áudio: lida com eficiência com a tarefa de gerar longas sequências de áudio usando divisores acústicos e semânticos inovadores executados em taxas de quadros muito baixas.
- medida de segurançaPara evitar o uso indevido, o modelo incorpora automaticamente declarações audíveis "geradas por IA" e marcas d'água imperceptíveis no áudio gerado.
Usando a Ajuda
O VibeVoice-1.5B destina-se principalmente a pesquisadores e desenvolvedores, e pode ser experimentado por usuários comuns por meio do aplicativo de demonstração Gradio no Hugging Face. Para os desenvolvedores, as etapas a seguir podem ser seguidas para implantar e usar o modelo em seu ambiente local.
Preparação e instalação do ambiente
Como o modelo requer alguns recursos computacionais, recomenda-se usá-lo em um ambiente Linux ou Windows (via WSL2) equipado com uma GPU NVIDIA (recomenda-se não menos que 10 GB de memória de vídeo).
- Repositório de código clone::
Clone o repositório de código do VibeVoice a partir do GitHub.git clone https://github.com/microsoft/VibeVoice-Code.git cd VibeVoice-Code
- Instalação de dependências::
A base de código geralmente fornece umrequirements.txt
que contém todas as bibliotecas de dependência do Python necessárias.pip install -r requirements.txt
Download do modelo
O arquivo de modelo do VibeVoice-1.5B está hospedado no Hugging Face. Você precisa especificar o caminho do modelo no códigomicrosoft/VibeVoice-1.5B
Cara de abraço.transformers
A biblioteca faz o download automático dos arquivos de modelo necessários.
Como usar (exemplo de código)
A funcionalidade principal do VibeVoice é a conversão de texto em fala feita por meio da criação de scripts para invocar o modelo. Abaixo está um fluxo de uso básico e um trecho de código que demonstra como gerar um áudio de um diálogo multijogador.
- Preparar para inserir texto::
O VibeVoice usa um formato simples para distinguir entre diferentes alto-falantes. Você precisa rotular o texto com a identidade de cada locutor, por exemplo[speaker 0]
talvez[speaker 1]
.text = """ [speaker 0] 你好,欢迎收听我们的AI播客。今天我们来聊聊最新的语音合成技术。 [speaker 1] 没错,特别是像VibeVoice这样的模型,它能生成长达90分钟的对话,真是太惊人了。 [speaker 0] 是的,而且它还支持最多4个不同的声音。这意味着我们可以制作更复杂的广播剧或者多人有声书了。 [speaker 1] 让我们来听听效果吧! """
- Escrever scripts de raciocínio::
Você precisa carregar o modelo e o processador (tokenizador) e, em seguida, alimentar o texto preparado no modelo para gerar o áudio.import torch from transformers import AutoProcessor, AutoModelForTextToWaveform import scipy.io.wavfile # 确定设备 device = "cuda" if torch.cuda.is_available() else "cpu" # 加载模型和处理器 processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-1.5B") model = AutoModelForTextToWaveform.from_pretrained("microsoft/VibeVoice-1.5B").to(device) # 准备输入 inputs = processor(text=text, return_tensors="pt").to(device) # 生成语音波形 with torch.no_grad(): waveform = model.generate(**inputs, do_sample=True, temperature=0.9) # 保存音频文件 # 注意:采样率需要从模型配置中获取,这里以24000为例 sampling_rate = model.config.sampling_rate scipy.io.wavfile.write("output_dialogue.wav", rate=sampling_rate, data=waveform[0].cpu().numpy()) print("音频文件已生成:output_dialogue.wav")
Esse script gera um arquivo chamado
output_dialogue.wav
arquivo de áudio que contém um diálogo entre os dois locutores.
Recurso em destaque Operação: Clonagem de voz em um único disparo
Em várias demonstrações fornecidas pela comunidade (Demos), o VibeVoice demonstra o poder da clonagem de voz de amostra única. O usuário simplesmente fornece uma pequena amostra de áudio da voz alvo, e o modelo pode imitar o timbre dessa voz para ler um novo texto em voz alta.
Na interface de demonstração do Gradio, geralmente há uma área para carregar arquivos de áudio.
- Carregue um arquivo de áudio nítido e sem ruído de fundo (por exemplo, no formato WAV ou MP3) que contenha o som que você deseja clonar.
- Na caixa de entrada de texto, digite o texto que você deseja que o modelo leia em voz alta com essa voz.
- Clique no botão Generate (Gerar) e o modelo usará os tons de áudio carregados para sintetizar uma nova voz.
advertência
- Somente para uso em pesquisaOs funcionários enfatizam que, no momento, o modelo é apenas para uso em pesquisa e não é recomendado para uso em ambientes comerciais ou de produção.
- restrição de idiomaO modelo é otimizado principalmente para inglês e chinês, e pode produzir resultados imprevisíveis ou de baixa qualidade em outros idiomas.
- sem ruído de fundoO modelo gera apenas vocais puros, sem adicionar música de fundo ou ruído ambiente.
- sem sobreposição de falaA versão atual não é compatível com a simulação de chamadas automáticas ou sobreposições de fala, comuns em diálogos com vários participantes, em que as transições entre os falantes são sequenciais.
cenário do aplicativo
- Produção de podcasts e audiolivros
Com a capacidade do VibeVoice de gerar até 90 minutos e suportar até quatro personagens, os criadores de conteúdo podem converter com eficiência roteiros ou livros em conteúdo de áudio na forma de diálogos com vários participantes, reduzindo drasticamente os custos de gravação. - Locução de personagens de jogos
Os desenvolvedores de jogos podem usar o modelo para gerar grandes quantidades de diálogos para personagens não jogadores (NPCs). Seus recursos expressivos podem fazer com que as vozes dos personagens soem mais naturais e aumentem a imersão no jogo. - Acessibilidade do conteúdo
Converta artigos longos, notícias ou relatórios em fala natural para usuários com deficiência visual. O recurso de vários alto-falantes pode ser usado para diferenciar entre citações e comentários de outras pessoas, facilitando a compreensão do conteúdo. - aprendizado de idiomas
Os modelos podem ser usados para criar materiais de aprendizagem de idiomas que simulem cenários reais de diálogo. Ao ajustar as vozes de diferentes personagens, isso pode ajudar os alunos a se adaptarem melhor a diferentes sotaques e velocidades de fala.
QA
- Quais são os idiomas suportados pelo VibeVoice-1.5B?
O modelo é treinado e otimizado principalmente com dados em inglês e chinês. Embora tenha algum recurso de síntese entre idiomas, os resultados podem ser instáveis ou insatisfatórios ao lidar com outros idiomas. - Existem requisitos de hardware para usar o VibeVoice-1.5B?
Sim, para obter melhores velocidades de inferência, é recomendável executar em um dispositivo com uma GPU NVIDIA com pelo menos 10 GB de memória de vídeo. A execução em um ambiente somente com CPU pode ser muito lenta. - O áudio gerado pode ser usado em projetos comerciais?
Não disponível. De acordo com as instruções oficiais, a versão lançada do modelo é limitada a fins de pesquisa e não é recomendada para nenhum aplicativo comercial. Qualquer uso está sujeito às restrições de uso na licença do MIT e no cartão do modelo, por exemplo, proibido para imitação de voz ou disseminação de desinformação. - O VibeVoice pode gerar fala em tempo real?
A versão atual não é adequada para aplicativos de conversão de voz em tempo real ou de baixa latência, como "falsificação profunda em tempo real" em telefonia ou videoconferência. Ela foi projetada para se concentrar na geração off-line de áudio longo de alta qualidade. - A fala gerada pelo modelo tem marca d'água?
Sim, para evitar o uso mal-intencionado, todo o áudio sintetizado por meio do modelo é automaticamente incorporado com uma declaração audível de IA (por exemplo, "Este segmento foi gerado por IA") e uma marca d'água digital imperceptível para rastreabilidade.