Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Como gerar um vídeo de sincronização labial usando o LatentSync a partir da linha de comando?

2025-08-27 2.4 K

Guia de operação da linha de comando

A seguir, um processo padrão baseado na versão 1.5 do LatentSync:

1. preparação de documentos de entrada

  • Solicitação de vídeoImagem: Contém um rosto nítido (recomenda-se a visualização frontal) que pode ser pré-processado com o ffmpeg:
    ffmpeg -i input.mp4 -r 25 resized.mp4
  • Requisitos de áudioArquivo WAV com taxa de amostragem de 16000 Hz, comando de conversão:
    ffmpeg -i audio.mp3 -ar 16000 audio.wav

2. aplicação de ordens de raciocínio

python -m scripts.inference 
--unet_config_path "configs/unet/stage2_efficient.yaml" 
--inference_ckpt_path "checkpoints/latentsync_unet.pt" 
--inference_steps 25 
--guidance_scale 2.0 
--video_path "input.mp4" 
--audio_path "audio.wav" 
--video_out_path "output.mp4"

Descrição dos principais parâmetros

parâmetros corresponde ao inglês -ity, -ism, -ization valor recomendado
inference_steps Controle da qualidade da geração 20-50 (valores mais altos são mais finos)
escala_de_orientação Força de correspondência labial 1,0-3,0 (muito alto pode causar distorção)

Verifique o output.mp4 quando terminar; se os lábios estiverem fora de sincronia, você poderá ajustar os parâmetros para regenerar.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil