Goku的突破性在于其流变换技术构建的动态表征系统。该系统通过时空注意力机制建立视频帧间的稠密对应关系,使模型能预测像素级的运动轨迹。具体实现上,算法会计算相邻帧特征图的光流场,然后将这些运动信息编码为可学习的流标记(flow tokens),这些标记与常规的内容标记共同参与transformer的自注意力计算。
这种设计带来了两大优势:其一,模型能显式建模物体运动规律,比如衣料摆动或液体流动的物理特性;其二,系统可以反向推导图像区域在不同帧中的对应关系,确保长序列生成中的内容一致性。在文本到视频的任务中,该技术使得生成视频的动作自然度评分达到4.8/5分,比纯扩散模型提升32%。
某影视特效公司的测试案例表明,使用Goku生成的角色动画片段中,服装褶皱的运动连续性比传统方法改善40%,特别适合需要精细动作捕捉的虚拟人物制作场景。
本答案来源于文章《Goku: 生成画面精细且一致的视频,适合创作包含人物、物体细节的广告视频》