vllm-cli verfügt über vier eingebaute optimierte Konfigurationsszenarien, die speziell auf unterschiedliche Nutzungsszenarien abgestimmt sind:
- StandardStandardkonfiguration mit intelligenten, von vLLM empfohlenen Parametern, geeignet für die meisten Modelle und allgemeinen Nutzungsszenarien
- moe_optimiertMixed Expert (MoE): Optimiert für das Mixed Expert (MoE)-Modell, mit angepassten Parametern in Bezug auf Expertenauswahl und Routing
- hoher_DurchsatzKonfiguration zur Maximierung des Anfragedurchsatzes, geeignet für Szenarien, die einen häufigen Aufruf des Modells erfordern
- geringer_SpeicherSpeicheroptimierte Konfigurationen, mit automatisch aktivierten Technologien wie FP8-Quantisierung, für Hardware-Umgebungen mit begrenztem GPU-Speicher
Der Zugriff auf diese vordefinierten Programme erfolgt über die--profile
Parameter Schnellaufruf. In der praktischen Entwicklung ist es empfehlenswert, zunächst denstandard
Konfiguration, und wählen Sie dann weitere Optimierungsoptionen oder nehmen Sie individuelle Parameteranpassungen entsprechend den spezifischen Anforderungen vor.
Diese Antwort stammt aus dem ArtikelvLLM CLI: Kommandozeilen-Tool für die Bereitstellung großer Sprachmodelle mit vLLMDie