A versão 1.5 do LatentSync foi lançada em março de 2023 com várias otimizações importantes para o ambiente chinês. O aprimoramento mais significativo é a redução da memória gráfica necessária para o treinamento para 20 GB, em vez de mais de 30 GB nas versões anteriores, o que possibilita concluir o treinamento do modelo usando uma placa de vídeo da classe RTX 3090.
- A otimização de gráficos é obtida principalmente por meio de uma arquitetura de rede U-Net aprimorada, incluindo o uso da configuração stage2_efficient.yaml
- Na fase de inferência, o requisito de memória de vídeo é reduzido ainda mais para apenas 6,8 GB necessários
- Essa versão aprimora especialmente o reconhecimento dos fonemas chineses e melhora a eficiência da codificação do áudio chinês por meio de um pipeline de processamento de dados reprojetado.
Essas melhorias permitem que desenvolvedores comuns usem a ferramenta para processar conteúdo chinês em hardware de nível de consumidor, reduzindo significativamente a barreira técnica.
Essa resposta foi extraída do artigoLatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudioO