基于Tarsier的智能视频分类系统搭建
媒体机构常面临视频素材混乱的难题,结合Tarsier可实现:
- 多级标签体系:通过–instruction参数定义分类标准(如场景、人物、动作三级标签)
- 相似度聚类:利用CLIP-ViT提取的特征向量,用FAISS库建立检索系统
- Automated workflows:编写Python脚本自动处理新入库视频,输出CSV格式元数据
- 质量过滤:配合AutoDQ评估分数,自动屏蔽低质量素材(阈值建议设0.65)
某电视台应用后,素材检索时间从平均5分钟降至30秒,重复素材识别准确率达92%。
This answer comes from the articleTarsier: an open source video comprehension model for generating high-quality video descriptionsThe