Genie 3的实时交互系统包含三层技术架构::
- 输入处理层:接受标准游戏控制器或键盘指令(如WSAD移动),将用户动作向量化为模型可理解的参数
- 预测渲染层:每40毫秒(对应24fps)执行一次自回归计算,基于当前画面帧和用户动作预测下一帧视觉状态。这种”帧到帧”的连续生成模式突破了传统视频生成工具的单次输出局限
- 动态修改层:支持通过追加文本指令(如”让天空下雨”)实时修改环境要素,系统会在保持场景一致性的前提下整合新元素
值得注意的是,其交互延迟控制在16ms以下(通过谷歌TPUv4加速),使得模型能流畅响应用户操作,达到接近游戏引擎的体验水平。
Essa resposta foi extraída do artigoGenie 3: Geração de mundos virtuais que podem ser interagidos em tempo realO