O sistema de transmissão ao vivo da VisionStory foi desenvolvido com base em Redes Adversárias Generativas (GAN) e tecnologia de renderização em tempo real. O sistema pode oferecer recursos interativos a qualquer foto estática, incluindo: diálogo em tempo real em vários idiomas (latência <500 ms), feedback automático de expressão e três funções principais de perguntas e respostas inteligentes. Testes técnicos mostram que, em cenários de transmissão ao vivo de comércio eletrônico, o âncora virtual pode lidar simultaneamente com mais de 200 perguntas pop-up de usuários, com uma precisão de resposta de 85%. Por exemplo, uma marca de beleza usou fotos antigas para "ressuscitar" o fundador da marca para transmissão ao vivo, criando um recorde de 3 milhões de visualizações em uma única sessão. A tecnologia adota a arquitetura de renderização distribuída, que garante uma saída suave de 60 fps em dispositivos com CPU de 8 núcleos, reduzindo significativamente o limite de hardware.
Essa resposta foi extraída do artigoVisionStory: geração de vídeos explicativos com IA a partir de imagens e textosO





























