Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O Goku é compatível com várias tarefas de geração multimodal e mantém um excelente desempenho

2025-09-10 1.7 K

Como uma plataforma de geração multifuncional, o Goku oferece três módulos funcionais principais: texto para vídeo (T2V), imagem para vídeo (I2V) e texto para imagem (T2I). Cada módulo usa uma arquitetura subjacente unificada, mas com sub-redes específicas otimizadas para diferentes tarefas. Por exemplo, o módulo I2V contém um cabeçalho de previsão de movimento dedicado que analisa os possíveis sinais de movimento na imagem de entrada, enquanto o módulo T2V aprimora o treinamento de alinhamento texto-visual para garantir uma representação semanticamente precisa.

Os dados do teste de desempenho mostram que o CLIP-Score do Goku atinge 0,82 na tarefa de texto para vídeo MSR-VTT, superando as principais soluções comerciais. Sua precisão de conversão de imagem em vídeo chega a 89% no conjunto de dados Something-Something V2, e é particularmente bom em lidar com comandos como "abrir um livro", que exigem a compreensão das interações entre objetos. Para a geração de texto para imagem, o modelo tem uma pontuação FID de 3,7 no conjunto de dados COCO, produzindo imagens com detalhes comparáveis aos da fotografia profissional.

O relatório de aplicação de um grupo multinacional de publicidade apontou que, usando a interface unificada do Goku para lidar com o design de anúncios impressos e a produção de anúncios em vídeo ao mesmo tempo, o tempo de ciclo do projeto foi reduzido em 60% e a consistência do estilo de conteúdo de mídia cruzada foi melhorada para 98%.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil