Schritt 3 Ein dreistufiges Optimierungsschema wird für Echtzeitanforderungen entwickelt:
- Ebene der ArchitekturDas MoE-Modell aktiviert nur etwa 121 TP3T an Parametern (3,8 Mrd./321 Mrd.), wodurch sich die für eine einzelne Inferenz benötigte Zeit um 401 TP3T verringert.
- Ebene des EinsatzesEmpfohlener vLLM-Motor mit kontinuierlicher Dosierungstechnologie für einen 3-5 mal höheren Durchsatz.
- Parameterebene: Einstellungen
max_new_tokens=512
Die Reaktionszeit der A800-Grafikkarte kann innerhalb von 500 ms gesteuert werden.
Tipp für die Schlüsselkonfiguration: Wenn Sie den vLLM-Dienst starten, fügen Sie die --tensor-parallel-size=4
Die Parameter nutzen die Vorteile des parallelen Multi-GPU-Computings voll aus, mit gemessenen QPS (Abfragen pro Sekunde) von bis zu 120+.
Diese Antwort stammt aus dem ArtikelSchritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale InhalteDie