Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O LatentSync é uma ferramenta de código aberto para sincronização labial orientada por áudio que usa a tecnologia Stable Diffusion

2025-08-27 2.4 K

O LatentSync é uma ferramenta de IA de nível profissional desenvolvida pela ByteDance com base no modelo de difusão potencial da Stable Diffusion. A ferramenta combina de forma inovadora a tecnologia de extração de recursos de áudio Whisper e a arquitetura de rede U-Net para realizar a conversão direta de quadros de áudio para vídeo. Sua implementação técnica consiste em três aspectos principais:

  • Os recursos de fonema no áudio são extraídos primeiro pela modelagem do Whisper
  • Os recursos de áudio são então mapeados para o espaço latente do quadro de vídeo usando uma rede U-Net modificada
  • Por fim, um amostrador com Stable Diffusion é usado para gerar sequências de vídeo com continuidade temporal

Essa rota tecnológica rompe com o método tradicional de sincronização labial baseado em modelagem 3D e proporciona uma aparência mais natural. Na versão 1.5, o modelo também apresenta a tecnologia de otimização de tempo TREPA, que melhora significativamente a consistência temporal do vídeo gerado.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil