DragAnything当前主要支持两类专业视频数据集:
官方支持数据集
- VIPSeg数据集:提供丰富的视频实例分割标注
- YouTube-VOS:包含大规模的视频对象分割数据
自定义数据处理流程
- 数据准备:收集包含目标对象的视频片段
- 轨迹标注:使用配套的Co-Track工具生成运动轨迹注释文件
(支持JSON和CSV格式) - 格式转换:参照项目文档要求处理为指定数据结构
- 目录配置:将处理后的数据放入
./custom_data/
子目录
项目建议对自定义数据先进行小规模测试,确保运动控制效果符合预期后再进行批量处理。值得注意的是,由于采用开放域嵌入表示,DragAnything对新物体的适应能力较强,通常不需要大量训练数据即可获得不错的效果。
本答案来源于文章《DragAnything:对图像中实体对象控制运动硅基生成视频》