O LatentSync é uma ferramenta de IA de nível profissional desenvolvida pela ByteDance com base no modelo de difusão potencial da Stable Diffusion. A ferramenta combina de forma inovadora a tecnologia de extração de recursos de áudio Whisper e a arquitetura de rede U-Net para realizar a conversão direta de quadros de áudio para vídeo. Sua implementação técnica consiste em três aspectos principais:
- Os recursos de fonema no áudio são extraídos primeiro pela modelagem do Whisper
- Os recursos de áudio são então mapeados para o espaço latente do quadro de vídeo usando uma rede U-Net modificada
- Por fim, um amostrador com Stable Diffusion é usado para gerar sequências de vídeo com continuidade temporal
Essa rota tecnológica rompe com o método tradicional de sincronização labial baseado em modelagem 3D e proporciona uma aparência mais natural. Na versão 1.5, o modelo também apresenta a tecnologia de otimização de tempo TREPA, que melhora significativamente a consistência temporal do vídeo gerado.
Essa resposta foi extraída do artigoLatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudioO