Interação revolucionária com entradas multimodais
Diferente da operação de linha do tempo do software de edição tradicional, o JEO 3 é o primeiro a criar um fluxo de trabalho de "geração de vídeo semântico". A entrada de texto suporta descrições detalhadas de cenas de até 500 caracteres, e o sistema identifica de forma inteligente as relações espaciais (por exemplo, "castelo à esquerda", "estrela cadente ao fundo"); a função de animação de imagem usa uma rede GAN para obter a previsão de movimento no nível do pixel, e as aplicações típicas incluem a conversão de uma foto estática de produto em um vídeo de exibição em 3D; a interação por voz integra a tecnologia ASR, e o JEO 3 é o primeiro fluxo de trabalho de "geração de vídeo semântico". As aplicações típicas incluem a transformação de fotos estáticas de produtos em vídeos de exibição em 3D; a interação por voz integra a tecnologia ASR e oferece suporte à conversão instantânea de 12 idiomas, incluindo chinês e inglês.
Em testes de comparação de eficiência, o tempo médio necessário para concluir um vídeo de mídia social de 15 segundos foi de 47 minutos para o software de edição tradicional e de apenas 2 minutos e 18 segundos para o JEO 3. Essa interação transformadora é especialmente adequada para cenários sensíveis ao tempo, como transmissões ao vivo de comércio eletrônico e notícias que exigem uma saída rápida de conteúdo.
Essa resposta foi extraída do artigoJEO 3: aplicativo para gerar vídeos usando texto, imagens ou falaO































