O LatentSync fornece um pipeline de pré-processamento de dados especializado para garantir que o vídeo de entrada atenda aos requisitos do modelo. Esse pipeline de processamento de dados usa um mecanismo de verificação de qualidade em vários níveis:
- Segmentação da cena usando o PySceneDetect, retendo de 5 a 10 segundos de segmentos válidos
- Detectar e alinhar regiões de faces por meio da biblioteca de alinhamento de faces, ajustando uniformemente a resolução de 256×256
- Calcule as pontuações de sincronização de áudio e vídeo com base no SyncNet e filtre as amostras com pontuações abaixo de 3
- Use o hyperIQA para avaliar a qualidade visual e remover conteúdo de baixa qualidade com pontuações abaixo de 40
Esse processo não só garante a qualidade dos dados de treinamento, mas também fornece uma referência padrão para o pré-processamento de entrada na fase de inferência. É oficialmente recomendado que os usuários processem os dados personalizados de acordo com o mesmo padrão antes do uso, o que é fundamental para obter os resultados desejados.
Essa resposta foi extraída do artigoLatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudioO