A atenção esparsa em blocos no MoBA é tratada com eficiência pelo mecanismo a seguir:
Estágio de fragmentação:
- Dividir a sequência de entrada em N blocos de contexto de tamanho fixo
- As pontuações de correlação iniciais são calculadas para cada token de consulta com todos os blocos KV
Estágio de alocação de atenção:
- Seleção dos k blocos de maior pontuação com base no top-k gating sem parâmetros
- Executa cálculos de atenção refinados somente em blocos selecionados
- Os blocos não verificados recebem peso zero para evitar desperdício de computação
Mecanismos de regulação dinâmica:
- Cada token de consulta pode tomar decisões autônomas sobre a combinação de blocos em que se concentrar
- Suporta a alternância automática entre atenção plena (k = todos os blocos) e atenção esparsa
- Tamanho do bloco e valor k ajustáveis de acordo com as condições de hardware e os requisitos da tarefa
Esse design hierárquico da atenção seletiva permite que o modelo reduza significativamente a carga computacional e, ao mesmo tempo, garanta que as informações essenciais não sejam perdidas.
Essa resposta foi extraída do artigoMoBA: o modelo de linguagem grande de Kimi para processamento de contextos longosO




























