主要業績評価指標
FlashMLAの主なパフォーマンス指標は以下の通り:
- メモリ帯域幅H800 GPUで最大3000GB/秒(メモリ集中型構成)
- 計算能力最大580TFLOPS(演算集中型構成)
性能試験方法
FlashMLAのパフォーマンスをテストするには、以下の手順に従ってください:
- サンプルスクリプト(example.pyなど)を編集して、入力データサイズを大きくする。
- タイムロギング・コードを使用する:
import time
start = time.time()
o_i, lse_i = flash_mla_with_kvcache(...)
print(f"耗时: {time.time() - start} 秒") - データサイズを徐々に大きくし、パフォーマンスの変化を観察する。
テストノート
- テスト環境が安定しており、他の高負荷タスクがないことを確認する。
- 実際の帯域幅使用率を表示するには、専門的なGPU監視ツールを使用することをお勧めします。
- 異なる構成(シーケンス長、チャンクサイズなど)は、最終的なパフォーマンスに影響を与える可能性がある。
この答えは記事から得たものである。FlashMLA:HopperGPU向けMLAデコード・カーネルの最適化(DeepSeek Open Source Week 1日目)について































