Derzeitige Position:Abb. Anfang " AI-Antworten

Wie dekodiert man mit FlashMLA in Python?

2025-09-05

1.7 K

Grundlegendes Nutzungsverfahren

Die Dekodierung mit FlashMLA in Python besteht aus den folgenden Hauptschritten:

Importieren Sie die erforderlichen Module:
from flash_mla import get_mla_metadata, flash_mla_with_kvcache
Vorbereitung der Eingabedaten: einschließlich Abfrage-Tensor, KV-Cache-Daten, Blocktabellen usw.
Metadaten abrufen:
tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)
Führen Sie die Dekodierung durch:
o_i, lse_i = flash_mla_with_kvcache(q_i, kvcache_i, block_table, cache_seqlens, dv, tile_scheduler_metadata, num_splits, causal=True)

Die wichtigsten Parameter sind: