Princípios de implementação da tecnologia subjacente
Os principais avanços tecnológicos do sistema são refletidos em três dimensões: a visão computacional adota o modelo StyleGAN3 aprimorado, que pode reconstruir a topologia da cabeça em 3D com apenas uma única foto; o módulo de síntese de fala integra o mecanismo Prosody-TTS desenvolvido pela própria empresa, que oferece suporte à geração de fala emotiva; e o sistema de animação de quadro-chave é baseado na arquitetura Transformer, que extrai automaticamente os acentos do texto e gera a animação de boca correspondente para os nós. O sistema de animação de quadro-chave é baseado na arquitetura Transformer, que pode extrair automaticamente os acentos do texto e gerar a animação de boca correspondente. Os testes mostram que, com resolução de 1080P, a precisão da sincronização labial do sistema atinge 98,7%, o que excede a de produtos semelhantes em 15 pontos percentuais. A plataforma é especialmente otimizada para adaptação móvel e leva apenas 47 segundos para concluir a renderização de vídeo 4K no iPhone 15, com o consumo de memória controlado em 800 MB.
Essa resposta foi extraída do artigoHumva: vídeo personalizado gratuito de uma pessoa digital/doppelganger digital gerado a partir de uma única fotoO































