Guia de operação da linha de comando
A seguir, um processo padrão baseado na versão 1.5 do LatentSync:
1. preparação de documentos de entrada
- Solicitação de vídeoImagem: Contém um rosto nítido (recomenda-se a visualização frontal) que pode ser pré-processado com o ffmpeg:
ffmpeg -i input.mp4 -r 25 resized.mp4
- Requisitos de áudioArquivo WAV com taxa de amostragem de 16000 Hz, comando de conversão:
ffmpeg -i audio.mp3 -ar 16000 audio.wav
2. aplicação de ordens de raciocínio
python -m scripts.inference --unet_config_path "configs/unet/stage2_efficient.yaml" --inference_ckpt_path "checkpoints/latentsync_unet.pt" --inference_steps 25 --guidance_scale 2.0 --video_path "input.mp4" --audio_path "audio.wav" --video_out_path "output.mp4"
Descrição dos principais parâmetros
parâmetros | corresponde ao inglês -ity, -ism, -ization | valor recomendado |
---|---|---|
inference_steps | Controle da qualidade da geração | 20-50 (valores mais altos são mais finos) |
escala_de_orientação | Força de correspondência labial | 1,0-3,0 (muito alto pode causar distorção) |
Verifique o output.mp4 quando terminar; se os lábios estiverem fora de sincronia, você poderá ajustar os parâmetros para regenerar.
Essa resposta foi extraída do artigoLatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudioO