Multi-LoRA-Ladelösung
Wenn Sie vllm-cli verwenden, um mehrere LoRA-Adapter gleichzeitig zu laden, wird die folgende Methode empfohlen:
- Parameter-Kombinationen:Geben Sie mehrere Adapterpfade mit dem Parameter -lora-modules im Format "name1:path1,name2:path2″ an.
- Planung des Grafikspeichers:Jedes LoRA benötigt etwa 200-500 MB Videospeicher. Verwenden Sie vllm-cli info, um die verbleibende Kapazität vor dem Laden zu überprüfen.
- <strong]Version kompatibel:Vergewissern Sie sich, dass alle LoRA-Adapter mit der Basismodellversion übereinstimmen.
- Gewichtete Fusion:Fortgeschrittene Benutzer können die Gewichtskonfiguration mit dem Parameter -lora-extra-config übergeben
Beispiel für einen Betrieb:
vllm-cli serve base_model -lora-modules "adapter1:/pfad/lora1,adapter2:/pfad/lora2"
Fehlerbehebung: Wenn das Laden fehlschlägt, überprüfen Sie zunächst die README.md der einzelnen LoRAs, um die Kompatibilität zu bestätigen, und laden Sie dann jeden Adapter einzeln zum Testen. Es wird empfohlen, die einzelnen LoRAs zunächst im interaktiven Modus zu testen, bevor sie in Kombination geladen werden.
Diese Antwort stammt aus dem ArtikelvLLM CLI: Kommandozeilen-Tool für die Bereitstellung großer Sprachmodelle mit vLLMDie