Design inovador para entrada simplificada
Embora os sistemas tradicionais de previsão do olhar normalmente exijam a fusão de dados de sensores de várias fontes, o Gaze-LLE permite a previsão de ponta a ponta usando apenas imagens RGB por meio dos poderosos recursos de representação de codificadores visuais pré-treinados. É demonstrado que os modelos básicos, como o DINOv2, já aprendem implicitamente a profundidade da cena e os recursos relacionados à pose humana, o que torna as modalidades de entrada adicionais uma opção não essencial.
Esse recurso técnico traz três vantagens práticas: reduz a dependência de hardware, que pode ser atendida por câmeras de consumo; simplifica o fluxo de processamento de dados, evitando o problema de alinhar informações de várias fontes; e melhora a robustez do sistema, reduzindo a falha de previsão devido à falta de dados de uma modalidade específica. Em benchmarks, como o VideoAttentionTarget, esse design parcimonioso alcança uma precisão melhor do que as abordagens multimodais.
Essa resposta foi extraída do artigoGaze-LLE: ferramenta de previsão de alvos para o olhar de pessoas em vídeosO































