Posição atual:fig. início " Respostas da IA

O LatentSync é uma ferramenta de código aberto para sincronização labial orientada por áudio que usa a tecnologia Stable Diffusion

2025-08-27

2.5 K

O LatentSync é uma ferramenta de IA de nível profissional desenvolvida pela ByteDance com base no modelo de difusão potencial da Stable Diffusion. A ferramenta combina de forma inovadora a tecnologia de extração de recursos de áudio Whisper e a arquitetura de rede U-Net para realizar a conversão direta de quadros de áudio para vídeo. Sua implementação técnica consiste em três aspectos principais:

Os recursos de fonema no áudio são extraídos primeiro pela modelagem do Whisper
Os recursos de áudio são então mapeados para o espaço latente do quadro de vídeo usando uma rede U-Net modificada
Por fim, um amostrador com Stable Diffusion é usado para gerar sequências de vídeo com continuidade temporal

Essa rota tecnológica rompe com o método tradicional de sincronização labial baseado em modelagem 3D e proporciona uma aparência mais natural. Na versão 1.5, o modelo também apresenta a tecnologia de otimização de tempo TREPA, que melhora significativamente a consistência temporal do vídeo gerado.

Essa resposta foi extraída do artigoLatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudioO

O LatentSync é uma ferramenta de código aberto para sincronização labial orientada por áudio que usa a tecnologia Stable Diffusion

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

O LatentSync é uma ferramenta de código aberto para sincronização labial orientada por áudio que usa a tecnologia Stable Diffusion

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida