Solução para o erro de vinculação de áudio a caractere
O MultiTalk usa a inovadora tecnologia L-RoPE (Label Rotation Position Embedding) para lidar especificamente com o problema de vincular vários canais de áudio a caracteres:
- Princípios técnicosL-RoPE: atribui o mesmo rótulo a cada fluxo de áudio e à imagem de referência correspondente e estabelece uma forte correlação no espaço de recursos girando a matriz.
- procedimento::
- Certifique-se de que cada nome de arquivo de áudio WAV tenha o mesmo prefixo que o nome de arquivo da imagem de referência da função correspondente (por exemplo, alice_voice.wav vs. alice_image.png)
- Marque explicitamente o índice de função correspondente a cada áudio no arquivo de configuração input_json
- Ative a funcionalidade completa do L-RoPE adicionando o parâmetro -use_label ao iniciar a geração
- OpçõesQuando ainda ocorrer um erro de vinculação, o
- Diminua o valor de -teacache_thresh para menos de 0,3 para aumentar a precisão da vinculação
- Adicione identificadores de função, como [Alice]: [Bob]: ao prompt de texto.
- Pré-processamento de áudio para garantir que o isolamento de cada canal seja ≥ 15dB
Os testes mostram que a precisão da ligação pode chegar a 98,7% após o uso do método acima, o que é muito mais alto do que o método tradicional baseado no alinhamento de tempo
Essa resposta foi extraída do artigoMultiTalk: uma ferramenta orientada por áudio para gerar vídeos de conversas com várias pessoasO