Visão geral do LatentSync
O LatentSync é um produto desenvolvido pela ByteHopFerramenta de sincronização labial de driver de áudio de código abertoEle é construído com base no modelo de difusão latente da difusão estável. Ele pode combinar a entradaComposição direta de áudio e vídeoVídeo de saída com correspondência precisa para formas de lábios sem a necessidade de ajustes manuais quadro a quadro.
Comparação dos principais pontos fortes
- Arquitetura tecnológicaA combinação do Whisper para extrair recursos de áudio + U-Net para gerar quadros de vídeo é mais natural do que os métodos tradicionais de detecção de pontos-chave.
- processamento de ponta a pontaSaída direta do vídeo completo (sem necessidade de extrair parâmetros intermediários primeiro)
- adaptação do idiomaVersão 1.5: A versão 1.5 foi otimizada para suporte ao idioma chinês (ferramentas semelhantes, como o Wav2Lip, são voltadas principalmente para o inglês).
- Compatível com hardwareA inferência requer apenas 6,8 GB de memória de vídeo, reduzindo os requisitos de treinamento para 20 GB (ferramentas semelhantes geralmente requerem mais de 24 GB)
- Código aberto e gratuitoCódigo completo e modelos pré-treinados estão disponíveis (soluções comerciais, como o Adobe Character Animator, exigem uma assinatura).
Essa resposta foi extraída do artigoLatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudioO