Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Wie lässt sich die Durchsatzleistung von vLLM-Modelldiensten verbessern?

2025-08-21 45

Lösungen zur Optimierung des Durchsatzes

Um den Durchsatz des vLLM-Modelldienstes zu verbessern, können Sie Folgendes tun:

  • Verwendung von voreingestellten Programmen:Aktivieren Sie die Optimierung für hohen Durchsatz, indem Sie den Parameter -profile high_throughput direkt angeben
  • Stellen Sie die parallelen Parameter ein:Erhöhung der Tensorparallelität mit -tensor-parallel-size (erfordert Multi-GPU-Unterstützung)
  • Quantitative Optimierung:Hinzufügen von Quantisierungsparametern wie -quantization awq, um den Videospeicherverbrauch zu reduzieren
  • Chargenoptimierung:Anpassen der Parameter -max-num-batched-tokens und -max-num-seqs

Hinweis: Die Erhöhung des Durchsatzes kann die Latenz erhöhen, was je nach Anwendungsszenario abgewogen werden muss. Es wird empfohlen, die GPU-Auslastung zunächst mit vllm-cli status zu überwachen und die Aktivierung der FP8-Quantisierung (-quantization fp8) zu erwägen, wenn ein Engpass im Videospeicher festgestellt wird. Für MoE-Architekturmodelle sollte stattdessen die Konfiguration moe_optimised verwendet werden.

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch