A inovação do Goku está no sistema de representação dinâmica construído por sua técnica de transformação de fluxo. O sistema estabelece uma correspondência densa entre os quadros de vídeo por meio de um mecanismo de atenção espaço-temporal, permitindo que o modelo preveja trajetórias de movimento no nível do pixel. Para a implementação concreta, o algoritmo calcula os campos de fluxo óptico dos mapas de recursos dos quadros vizinhos e, em seguida, codifica essas informações de movimento em tokens de fluxo aprendíveis, que participam do cálculo de autoatenção do transformador juntamente com os tokens de conteúdo regular.
Esse design traz duas grandes vantagens: uma, o modelo pode modelar explicitamente as leis do movimento do objeto, como as propriedades físicas do balanço da roupa ou do fluxo de líquidos; e duas, o sistema pode derivar inversamente a correspondência das regiões da imagem entre os quadros, garantindo a consistência do conteúdo na geração de sequências longas. Na tarefa de texto para vídeo, a técnica resulta em uma pontuação de naturalidade de movimento de 4,8/5 para o vídeo gerado, o que representa um aprimoramento de 32% em relação ao modelo de difusão pura.
Um caso de teste de uma empresa de efeitos especiais de cinema e televisão mostrou que a continuidade do movimento das dobras das roupas nos clipes de animação de personagens gerados por Goku melhorou em 40% em comparação com o método tradicional, o que é especialmente adequado para cenas de produção de personagens virtuais que exigem captura de movimentos finos.
Essa resposta foi extraída do artigoGoku: gera vídeos detalhados e consistentes, ideais para a criação de comerciais com personagens e objetos detalhados.O































