O sistema de geração de texto para vídeo da Higgsfield AI alcança o mapeamento de alta precisão de elementos semânticos para elementos visuais por meio de um mecanismo de atenção transmodal. O CLIP-ViT-L/14 é usado como codificador de texto e, com um espaço latente dinâmico de 512 dimensões, ele é capaz de decompor descrições complexas, como "homem e mulher de cabelos azuis brincando em uma cidade de neon", em 167 recursos visuais quantificáveis. O controle de coerência espacial e temporal do sistema é particularmente impressionante ao gerar clipes de vídeo de 2 segundos:
- As trajetórias de movimento do personagem estão em conformidade com as restrições cinemáticas (erro de aceleração <0,3 m/s²)
- Correspondência da consistência da luz com o HDR Panorama 90%
- As propriedades de reflexão do material mantêm a variação de quadro a quadro menor que 5%
Nos testes com usuários, o sistema obteve uma pontuação CIDEr de 82,7 no conjunto de dados MSR-VTT, 11,5 pontos percentuais a mais do que o Runway Gen-2. Isso permite que as imagens de vídeo geradas sejam usadas diretamente em pré-visualizações profissionais de filmes e TV, economizando o custo de tempo da produção tradicional em tela dividida.
Essa resposta foi extraída do artigoHiggsfield AI: uso de IA para gerar vídeos fotorrealistas e avatares personalizadosO































