Grundlegendes Nutzungsverfahren
Die Dekodierung mit FlashMLA in Python besteht aus den folgenden Hauptschritten:
- Importieren Sie die erforderlichen Module:
from flash_mla import get_mla_metadata, flash_mla_with_kvcache - Vorbereitung der Eingabedaten: einschließlich Abfrage-Tensor, KV-Cache-Daten, Blocktabellen usw.
- Metadaten abrufen:
tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv) - Führen Sie die Dekodierung durch:
o_i, lse_i = flash_mla_with_kvcache(q_i, kvcache_i, block_table, cache_seqlens, dv, tile_scheduler_metadata, num_splits, causal=True)
Beschreibung der Parameter
Die wichtigsten Parameter sind:
- q_i: Abfrage-Tensor
- kvcache_i: KV-Cache-Daten
- block_table: Blocktabelle für den Paging-Cache
- cache_seqlens: definiert die Sequenzlänge des KV-Cache
Diese Antwort stammt aus dem ArtikelFlashMLA: Optimierung von MLA-Dekodierungskerneln für Hopper-GPUs (DeepSeek Open Source Week Day 1)Die































