Métricas de desempenho inovadoras do FlashMLA
O FlashMLA estabeleceu recordes impressionantes de desempenho nas GPUs NVIDIA H800 SXM5, definindo um novo padrão para tarefas de inferência de IA em grande escala.
Dados-chave de desempenho
- Largura de banda máxima da memória: 3000 GB/s (configuração com uso intensivo de memória)
- Potência aritmética máxima: 580 TFLOPS (tarefas de computação intensiva)
- Mecanismo de cache de KV em paginação com tamanho de bloco 64
Princípios de otimização de desempenho
- Tecnologia NVLink de quarta geração que aproveita a arquitetura Hopper
- Otimizar os modos de acesso à memória gráfica para melhorar a utilização da largura de banda
- Rearranjo de instruções de computação com base no núcleo do tensor
- Estratégias de agendamento para reduzir as esperas de E/S na memória
Essa resposta foi extraída do artigoFlashMLA: Otimizando kernels de decodificação MLA para GPUs Hopper (DeepSeek Open Source Week Day 1)O































