Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O Gaze-LLE é uma ferramenta de previsão do alvo do olhar baseada em codificador de aprendizado em larga escala

2025-09-10 2.1 K

Princípios arquitetônicos do Gaze-LLE

O Gaze-LLE é uma ferramenta de visão computacional desenvolvida por uma equipe do Instituto de Tecnologia da Geórgia, cuja arquitetura técnica principal é construída sobre modelos de base visual pré-treinados. De forma inovadora, a ferramenta emprega um codificador visual congelado, como o DINOv2, como a rede de backbone, exigindo apenas o treinamento de um módulo leve de decodificador de olhar. Esse design permite que o número de parâmetros do modelo seja reduzido em uma ou duas ordens de grandeza em comparação com os métodos tradicionais, e que o tamanho típico do parâmetro seja compactado de centenas de milhões para milhões.

O principal avanço se reflete em dois aspectos: primeiro, ele se baseia inteiramente em entradas de imagens RGB, descartando as informações de profundidade ou os dados de postura humana exigidos pelos métodos tradicionais; segundo, ele consegue uma previsão eficiente por meio da multiplexação de recursos, e uma única codificação de imagem pode suportar a análise de vários olhares em uma cena. Essa arquitetura torna o Gaze-LLE significativamente melhor do que as soluções existentes em termos de eficiência computacional e facilidade de implementação.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo