本番環境でFlashMLAと既存のPyTorchモデルのシームレスな統合を実現するには？

2025-09-05

1.6 K

統合ソリューション

FlashMLAを既存のPyTorch推論プロセスに3つのステップで組み込む：

注意層置換（ALR）::
- オリジナルモデルをMultiheadAttentionモジュール
- 継承の作成nn.Moduleの荷造りクラス。forward()呼ぶflash_mla_with_kvcache
データ形式の変換::
- 利用するtorch.nn.functional.pad入力を64の倍数にする
- とおす.to(torch.bfloat16)一貫した精度の確保
キャッシュ管理::
- LRUポリシーを実装するためのキャッシュ・プール・クラス管理block_table
- あらかじめ設定した長さ以上のシーケンスの自動切り捨てのトリガー