A geração de vídeos de sincronização labial usando SVLS é dividida em três etapas principais:
1. preparação ambiental
As seguintes dependências precisam ser instaladas:
- Versão da GPU do PyTorch (1.12.1+cu113) e bibliotecas visuais e de áudio relacionadas
- Ferramentas de processamento multimídia FFmpeg
- Todos os pacotes Python listados no arquivo requirements.txt do projeto
- Se quiser usar o recurso de interpolação de quadros DAIN, você também precisará instalar a estrutura de aprendizagem profunda PaddlePaddle.
2. preparação de documentos
Dois documentos principais precisam ser preparados:
- áudio acionadoArquivo de áudio (por exemplo, no formato .wav) gerado pela sincronização labial do driver
- source_videoArquivo de vídeo original contendo o retrato (por exemplo, formato .mp4)
3. execução da ordem de geração
O processo de geração é iniciado com os seguintes comandos típicos:
python inference.py --driven_audio audio.wav --source_video video.mp4 --enhancer face --use_DAIN --time_step 0.5
onde parâmetros importantes são descritos:
- -aprimoradorModo de aprimoramento: selecione o modo de aprimoramento (nenhum sem aprimoramento/lábio apenas com aprimoramento labial/rosto com aprimoramento total do rosto)
- -use_DAINInterpolação de quadros de 50 fps: Ativar interpolação de quadros de 50 fps
- -time_stepControle da densidade de inserção de quadros
Os resultados gerados são salvos por padrão no diretório . /results, os usuários podem visualizar o vídeo de comparação de diferentes efeitos de aprimoramento no subdiretório sync_show.
Essa resposta foi extraída do artigoSVLS: SadTalker aprimorado para gerar pessoas digitais usando vídeo de retratoO































