Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

Posição atual:fig. início " Respostas da IA

Quais são os principais aprimoramentos técnicos da versão 1.5 do LatentSync?

2025-08-27

Respostas da IA

2.6 K

Atualizações técnicas da versão 1.5

A versão 1.5, lançada em março de 2025, traz três aprimoramentos principais:

1. maior consistência de tempo

adoçãoTecnologia TREPA(Timing Relative Positional Attention) Redução do jitter entre quadros
Nova camada convolucional temporal para fortalecer a correlação entre os quadros anterior e posterior
Redução dos saltos de tela no vídeo de demonstração 42%

2. otimização do processamento chinês

Ampliação do modelo WhisperReconhecimento de fonemas chineseshabilidades
Mais de 200 horas de amostras de vídeos chineses são adicionadas aos dados de treinamento
A precisão do formato do lábio chinês melhorou de 78% para 91%

3. ganhos de eficiência no treinamento

Arquitetura U-Net reconfigurada para reduzir o espaço de memória em 25% (20GB prontos para treinamento)
Adicionada a configuração leve stage2_efficient.yaml
apoiar algoponto de controle de gradienteTecnologia para treinamento em vídeo longo mais estável

Esses aprimoramentos tornam o LatentSync mais adequado para desenvolvedores não profissionais, mantendo a qualidade.

Essa resposta foi extraída do artigoLatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudioO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " Quais são os principais aprimoramentos técnicos da versão 1.5 do LatentSync?

Recomendado