Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

Posição atual:fig. início " Respostas da IA

FlashMLA atinge 3000 GB/s de largura de banda de memória e 580 TFLOPS de aritmética no H800

2025-09-05

Respostas da IA

1.6 K

Métricas de desempenho inovadoras do FlashMLA

O FlashMLA estabeleceu recordes impressionantes de desempenho nas GPUs NVIDIA H800 SXM5, definindo um novo padrão para tarefas de inferência de IA em grande escala.

Dados-chave de desempenho

Largura de banda máxima da memória: 3000 GB/s (configuração com uso intensivo de memória)
Potência aritmética máxima: 580 TFLOPS (tarefas de computação intensiva)
Mecanismo de cache de KV em paginação com tamanho de bloco 64

Princípios de otimização de desempenho

Tecnologia NVLink de quarta geração que aproveita a arquitetura Hopper
Otimizar os modos de acesso à memória gráfica para melhorar a utilização da largura de banda
Rearranjo de instruções de computação com base no núcleo do tensor
Estratégias de agendamento para reduzir as esperas de E/S na memória

Essa resposta foi extraída do artigoFlashMLA: Otimizando kernels de decodificação MLA para GPUs Hopper (DeepSeek Open Source Week Day 1)O

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " FlashMLA atinge 3000 GB/s de largura de banda de memória e 580 TFLOPS de aritmética no H800

Recomendado