LMCache erweitert auf innovative Weise den Anwendungsbereich des traditionellen KV-Caching und ermöglicht es, den Inferenzprozess multimodaler Modelle zu optimieren. Das System kodiert und verarbeitet Bild-Token durch einen speziellen Hashing-Algorithmus (mm_hashes) und speichert Schlüssel-Wert-Paare von visuellen und textuellen Merkmalen einheitlich im selben Speichersystem. Diese Technologie reduziert den GPU-Speicherverbrauch von visuellen Sprachmodellen (z.B. CLIP, Flamingo, etc.) erheblich und verbessert die Inferenzgeschwindigkeit unter der Prämisse, die Qualität der Ausgabe zu gewährleisten. Das offizielle LMCache-Examples Repository enthält konkrete Implementierungsbeispiele für multimodale Szenarien, die zeigen, wie die Zwischenergebnisse von Bild-Text-Paaren zwischengespeichert und wiederverwendet werden können.
Diese Antwort stammt aus dem ArtikelLMCache: Ein Key-Value-Cache-Optimierungswerkzeug zur Beschleunigung von Schlussfolgerungen auf großen SprachmodellenDie































