O L-RoPE (Labelled Rotary Position Embedding) é a principal inovação técnica do MultiTalk, que resolve principalmente o problema de vinculação de áudio e vídeo em cenários com várias funções:
O desafio técnico
O método tradicional é propenso a ocorrer com várias entradas de áudio:
1. incompatibilidade de caracteres e áudio
2. movimentos labiais fora de sincronia com a fala
3. má coordenação dos movimentos interativos
prescrição
- Mecanismo de incorporação de rótulosAtribua rótulos exclusivos a cada fluxo de áudio e função de vídeo
- Código de posição do RotaryEstabelecer uma correspondência precisa no espaço de recursos
- vinculação dinâmicaAjuste da correlação espacial e temporal dos recursos visuais e de áudio em tempo real
efeito real
Os testes mostram que essa técnica pode melhorar a precisão da sincronização em cerca de 351 TP3T e ainda manter mais de 901 TP3T de precisão de sincronização labial em cenários de conversas cruzadas entre várias pessoas. Em comparação com o método CLIP tradicional, o L-RoPE reduz a taxa de erro em 601 TP3T em cenas de vídeo longas.
Essa resposta foi extraída do artigoMultiTalk: uma ferramenta orientada por áudio para gerar vídeos de conversas com várias pessoasO































