如何实现视频内容的自动化文本描述生成？

前処理段階: : 将视频按关键帧分割（建议1-2秒/帧） 保存为连续图像序列frame1.jpg, frame2.jpg等
模型输入配置: : 修改pixel_values参数为多图列表 设置multimodal_max_length参数扩大序列长度
キューのデザイン: : 基础模板：&#8217;描述这组连续图片的内容变化&#8217; 高级查询：&#8217;第三帧中出现了什么新物体？&#8217;

系统会输出带时序标记的描述，如’0.5秒出现行人，2秒后车辆驶过’。建议配合FFmpeg工具进行视频预处理。