Precisão de dados e inovações no gerenciamento de memória no FlashMLA
O FlashMLA alcança a otimização dupla da eficiência computacional e do uso da memória ao oferecer suporte à computação de meia precisão BF16 (Brain Floating Point 16) e ao mecanismo avançado de cache KV paginado.
Vantagem da precisão do BF16
- Reduzindo o espaço de memória do 50% e mantendo a precisão do modelo
- Aproveitamento da unidade de computação BF16 da GPU Hopper
- Evitar os problemas de estouro numérico que tendem a ocorrer com os FP16s tradicionais
Tecnologia de cache KV com paginação
- Gerenciamento de blocos de paginação com tamanho fixo de 64
- Implementação de alocação eficiente de memória para sequências de comprimento variável
- Reduzir a fragmentação da memória para melhorar a taxa de acerto do cache
- Oferece suporte ao processamento de comprimento de sequência ajustado dinamicamente
Essa resposta foi extraída do artigoFlashMLA: Otimizando kernels de decodificação MLA para GPUs Hopper (DeepSeek Open Source Week Day 1)O































