基于Tarsier的智能视频分类系统搭建
媒体机构常面临视频素材混乱的难题,结合Tarsier可实现:
- 多级标签体系:通过–instruction参数定义分类标准(如场景、人物、动作三级标签)
- 相似度聚类:利用CLIP-ViT提取的特征向量,用FAISS库建立检索系统
- 自动化工作流:编写Python脚本自动处理新入库视频,输出CSV格式元数据
- 质量过滤:配合AutoDQ评估分数,自动屏蔽低质量素材(阈值建议设0.65)
某电视台应用后,素材检索时间从平均5分钟降至30秒,重复素材识别准确率达92%。
本答案来源于文章《Tarsier:生成高质量视频描述的开源视频理解模型》