Como melhorar a utilização da largura de banda da memória para raciocínio de modelos grandes com o FlashMLA?

2025-09-05

1.6 K

Estratégias de otimização de largura de banda

O FlashMLA melhora a largura de banda da memória H800 em três dimensões:

Otimização do layout de dados::
- fazer uso detorch.channels_lastformato de memória
- Dividir o cache KV em[num_blocks, 64, h_kv, d]O tensor 4D do
Controle do modo de acesso::
- aprovar (um projeto de lei ou inspeção etc.)tile_scheduler_metadataPlanejamento de acessos consolidados à memória
- configurarnum_splits=4Equilíbrio entre paralelismo e localização
Mecanismo de pré-aquisição::
- existirblock_tablePré-carregamento da próxima página possível no
- fazer uso decudaMemAdviseSetPreferredLocationchamar a atenção para algo

Exemplo de configuração para obter uma largura de banda de 3000 GB/s no H800:

estar em movimentonvidia-smi dmon -s uObserve a utilização da largura de banda da memória; o valor-alvo deve ser estável em 80% ou superior.