Atualizações técnicas da versão 1.5
A versão 1.5, lançada em março de 2025, traz três aprimoramentos principais:
1. maior consistência de tempo
- adoçãoTecnologia TREPA(Timing Relative Positional Attention) Redução do jitter entre quadros
- Nova camada convolucional temporal para fortalecer a correlação entre os quadros anterior e posterior
- Redução dos saltos de tela no vídeo de demonstração 42%
2. otimização do processamento chinês
- Ampliação do modelo WhisperReconhecimento de fonemas chineseshabilidades
- Mais de 200 horas de amostras de vídeos chineses são adicionadas aos dados de treinamento
- A precisão do formato do lábio chinês melhorou de 78% para 91%
3. ganhos de eficiência no treinamento
- Arquitetura U-Net reconfigurada para reduzir o espaço de memória em 25% (20GB prontos para treinamento)
- Adicionada a configuração leve stage2_efficient.yaml
- apoiar algoponto de controle de gradienteTecnologia para treinamento em vídeo longo mais estável
Esses aprimoramentos tornam o LatentSync mais adequado para desenvolvedores não profissionais, mantendo a qualidade.
Essa resposta foi extraída do artigoLatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudioO