Três maneiras de melhorar a precisão da previsão entre cenários
O Gaze-LLE já tem uma boa capacidade de generalização por meio de estratégias de pré-treinamento e seleção de modelos e, para melhorar ainda mais a precisão entre cenas, ele pode ser:
- Seleção de modelos:priorizar_inoutModelos sufixados (por exemplo, gazelle_dinov2_vitb14_inout), que usam dados de treinamento conjunto de GazeFollow + VideoAttentionTarget para cobrir uma ampla gama de cenas internas e externas
- Aprendizagem por transferência:Descongele as últimas 3 camadas do backbone para ajuste fino, treine de 5 a 10 épocas em uma pequena amostra de dados (~200 mapas rotulados) da nova cena
- Otimização do pós-processamento:Execute a supressão não máxima (NMS) no mapa de calor de saída e defina um limite para filtrar os pontos de previsão com confiança <0,7
Observação: o extrator de recursos do DINOv2 já cobriu os recursos avançados da cena durante o pré-treinamento e, em geral, não é recomendável treiná-lo completamente de novo. Se a cena-alvo tiver condições especiais de iluminação (por exemplo, vigilância por infravermelho), é recomendável adicionar a equalização do histograma no estágio de pré-processamento de dados.
Essa resposta foi extraída do artigoGaze-LLE: ferramenta de previsão de alvos para o olhar de pessoas em vídeosO































