A plataforma oferece dois modos de entrada principais: descrição de texto e referência de imagem. Os prompts de texto oferecem suporte a descrições detalhadas de elementos de cena (movimentos de personagens, ângulos de câmera, estilos de imagem etc.), e o sistema usa a tecnologia NLP para analisar a profundidade semântica; a entrada de imagens usa um codificador visual para extrair recursos, garantindo que o conteúdo gerado mantenha o mesmo estilo da imagem de referência. O mecanismo exclusivo de entrada composta permite que os usuários usem texto e imagens ao mesmo tempo, e a IA fundirá os dois tipos de informações para a compreensão multimodal. Esse design de entrada de canal duplo melhora significativamente a precisão da expressão criativa e é uma vantagem tecnológica importante em relação às soluções de entrada unimodal.
Essa resposta foi extraída do artigoVO3 AI: ferramenta de geração de vídeo de IA orientada pelo modelo VO3O