Lösungen zur Optimierung des Durchsatzes
Um den Durchsatz des vLLM-Modelldienstes zu verbessern, können Sie Folgendes tun:
- Verwendung von voreingestellten Programmen:Aktivieren Sie die Optimierung für hohen Durchsatz, indem Sie den Parameter -profile high_throughput direkt angeben
- Stellen Sie die parallelen Parameter ein:Erhöhung der Tensorparallelität mit -tensor-parallel-size (erfordert Multi-GPU-Unterstützung)
- Quantitative Optimierung:Hinzufügen von Quantisierungsparametern wie -quantization awq, um den Videospeicherverbrauch zu reduzieren
- Chargenoptimierung:Anpassen der Parameter -max-num-batched-tokens und -max-num-seqs
Hinweis: Die Erhöhung des Durchsatzes kann die Latenz erhöhen, was je nach Anwendungsszenario abgewogen werden muss. Es wird empfohlen, die GPU-Auslastung zunächst mit vllm-cli status zu überwachen und die Aktivierung der FP8-Quantisierung (-quantization fp8) zu erwägen, wenn ein Engpass im Videospeicher festgestellt wird. Für MoE-Architekturmodelle sollte stattdessen die Konfiguration moe_optimised verwendet werden.
Diese Antwort stammt aus dem ArtikelvLLM CLI: Kommandozeilen-Tool für die Bereitstellung großer Sprachmodelle mit vLLMDie