Princípios arquitetônicos do Gaze-LLE
O Gaze-LLE é uma ferramenta de visão computacional desenvolvida por uma equipe do Instituto de Tecnologia da Geórgia, cuja arquitetura técnica principal é construída sobre modelos de base visual pré-treinados. De forma inovadora, a ferramenta emprega um codificador visual congelado, como o DINOv2, como a rede de backbone, exigindo apenas o treinamento de um módulo leve de decodificador de olhar. Esse design permite que o número de parâmetros do modelo seja reduzido em uma ou duas ordens de grandeza em comparação com os métodos tradicionais, e que o tamanho típico do parâmetro seja compactado de centenas de milhões para milhões.
O principal avanço se reflete em dois aspectos: primeiro, ele se baseia inteiramente em entradas de imagens RGB, descartando as informações de profundidade ou os dados de postura humana exigidos pelos métodos tradicionais; segundo, ele consegue uma previsão eficiente por meio da multiplexação de recursos, e uma única codificação de imagem pode suportar a análise de vários olhares em uma cena. Essa arquitetura torna o Gaze-LLE significativamente melhor do que as soluções existentes em termos de eficiência computacional e facilidade de implementação.
Essa resposta foi extraída do artigoGaze-LLE: ferramenta de previsão de alvos para o olhar de pessoas em vídeosO































