O mecanismo de vídeo da plataforma suporta a geração de conteúdo de 60 segundos, combinando os recursos de simulação física da Kling com a compreensão semântica da Veo. Ao produzir uma cena complexa, como uma "nave espacial de ficção científica viajando por uma nebulosa", o sistema a divide automaticamente em três níveis técnicos: primeiro, ele entende a semântica do texto por meio do modelo CLIP; segundo, aplica a arquitetura UNet para construir os quadros-chave; e, por último, usa o algoritmo de fluxo óptico para preencher a lacuna e gerar uma animação fluente de 60 fps. A avaliação profissional mostra que sua qualidade de saída atinge padrões de nível comercial e foi aplicada com sucesso à produção dos créditos do blogueiro principal do TikTok. A plataforma também introduziu de forma inovadora a função de importar rascunhos de subcenas, o que ajuda os criadores a controlar o ritmo da narrativa com mais precisão.
Essa resposta foi extraída do artigoMonet Vision: uma plataforma de criação de IA que gera imagens e vídeos profissionais com um cliqueO