Explicação da arquitetura de atenção inovadora
O inovador mecanismo de atenção retangular (RA) do KBLaM armazena vetores de conhecimento em matrizes de peso separadas, desacoplando as dimensões de chave-valor. Diferentemente dos mecanismos tradicionais de autoatenção, o design permite que a dimensão da chave de conhecimento (K) seja muito maior do que a dimensão do valor (V) (uma proporção de 2048:256 foi usada nos experimentos), criando uma estrutura de armazenamento de conhecimento "estreita e profunda". O whitepaper técnico mostra que essa arquitetura permite que o modelo suporte a recuperação rápida de mais de 1 milhão de registros de conhecimento com latência de resposta de consulta controlada para menos de 50 ms (ambiente A100), mantendo um estado oculto de 768 dimensões. Foi demonstrado que o mecanismo melhora a precisão da atenção em 191 TP3T em relação ao Transformer padrão em tarefas como a previsão de propriedades de moléculas químicas que exigem a recuperação precisa de conhecimento especializado.
Essa resposta foi extraída do artigoKBLaM: uma ferramenta aprimorada de código aberto para incorporar conhecimento externo em modelos grandesO