Em comparação com a geração anterior do Wan2.1, o Wan2.2 fez um progresso significativo em termos de dados de treinamento. Especificamente, seu conjunto de dados de treinamento foi aumentado em 65,61 TP3T de dados de imagem e 83,21 TP3T de dados de vídeo, e esses acréscimos melhoram significativamente o desempenho do modelo em várias dimensões: a geração de movimento é mais natural e suave, a capacidade de compreensão semântica é mais detalhada e precisa e o efeito estético atinge um nível cinematográfico. O acúmulo desses dados em grande escala permite que o Wan2.2 lide com descrições de cenas mais complexas e gere efeitos visuais mais profissionais, o que é um dos principais motivos pelos quais ele consegue superar alguns dos modelos comerciais no teste de benchmark Wan-Bench 2.0.
Essa resposta foi extraída do artigoWan2.2: Modelo de geração de vídeo de código aberto com suporte eficiente a texto e imagem para vídeoO