Posição atual:fig. início " Respostas da IA

A versão 1.5 do LatentSync melhora significativamente a eficiência da memória para o processamento de vídeo chinês.

2025-08-27

2.7 K

A versão 1.5 do LatentSync foi lançada em março de 2023 com várias otimizações importantes para o ambiente chinês. O aprimoramento mais significativo é a redução da memória gráfica necessária para o treinamento para 20 GB, em vez de mais de 30 GB nas versões anteriores, o que possibilita concluir o treinamento do modelo usando uma placa de vídeo da classe RTX 3090.

A otimização de gráficos é obtida principalmente por meio de uma arquitetura de rede U-Net aprimorada, incluindo o uso da configuração stage2_efficient.yaml
Na fase de inferência, o requisito de memória de vídeo é reduzido ainda mais para apenas 6,8 GB necessários
Essa versão aprimora especialmente o reconhecimento dos fonemas chineses e melhora a eficiência da codificação do áudio chinês por meio de um pipeline de processamento de dados reprojetado.

Essas melhorias permitem que desenvolvedores comuns usem a ferramenta para processar conteúdo chinês em hardware de nível de consumidor, reduzindo significativamente a barreira técnica.

Essa resposta foi extraída do artigoLatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudioO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " A versão 1.5 do LatentSync melhora significativamente a eficiência da memória para o processamento de vídeo chinês.