作为多功能生成平台,Goku提供三大核心功能模块:文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)。每个模块都采用统一的底层架构,但针对不同任务优化了特定的子网络。例如I2V模块包含专门的运动预测头,能分析输入图像中的潜在运动线索;而T2V模块则强化了文本-视觉对齐训练,确保语义准确表达。
性能测试数据显示,在MSR-VTT文本到视频任务中,Goku的CLIP-Score达到0.82,超越主流商业解决方案。其图像到视频转换准确率在Something-Something V2数据集上达89%,特别擅长处理诸如”打开书本”等需要理解物体交互关系的指令。对于文本到图像生成,模型在COCO数据集上的FID分数为3.7,生成图像细节堪比专业摄影。
某跨国广告集团的应用报告指出,使用Goku的统一接口同时处理平面广告设计和视频广告制作,项目周期缩短60%,跨媒介内容风格一致性提升至98%。
本答案来源于文章《Goku: 生成画面精细且一致的视频,适合创作包含人物、物体细节的广告视频》