提升跨场景预测准确度的三种方法
Gaze-LLE通过预训练策略和模型选择已具备较好的泛化能力,如需进一步提升跨场景准确度,可以:
- 模型选择:优先选用_inout后缀的模型(如gazelle_dinov2_vitb14_inout),它们使用GazeFollow+VideoAttentionTarget联合训练数据,覆盖室内外多种场景
- 迁移学习:解冻backbone最后3层进行微调,在新场景的小样本数据(约200张标注图)上训练5-10个epoch
- 后处理优化:对输出热图进行非极大值抑制(NMS),设置阈值过滤置信度<0.7的预测点
注意事项:DINOv2的特征提取器在预训练时已涵盖丰富场景特征,一般情况下不建议完全重新训练。若目标场景存在特殊光照条件(如红外监控),建议在数据预处理阶段加入直方图均衡化。
本答案来源于文章《Gaze-LLE: 视频中人物注视目标预测工具》