Lösung zur Optimierung dezentraler Schulungen
Verifizierer kombiniertvLLM+FSDPDie zweischichtige Parallelstrategie maximiert die Ressourcennutzung:
- Datenparallelität::
GRPOTrainerUnterstützt standardmäßig Multi-GPU-Inferenz durch--data-parallel-sizeParameter Konfiguration - Modellparallelismus:: In Verbindung mit dem
prime-rlNach der Integration kann der vollständige Sharding-Modus von FSDP aktiviert werden, der das Training mit Hunderten von Milliarden Parametern unterstützt. - Optimierung der Fließwege: Verwendung
flash-attnUm die Aufmerksamkeitsberechnungen zu beschleunigen, wird empfohlen, dies während der Installation hinzuzufügen.--no-build-isolation
Empfohlene Konfiguration:
- Sieben GPUs im Betrieb
vf-vllmBearbeitung von Inferenzanfragen - Spezielle GPU für Trainingsprozesse (Zero Stage 3-Konfiguration)
- aufstellen
NCCL_P2P_DISABLE=1Kommunikationsstillstände vermeiden - Überwachungsinstrumente zeigen an, dass die Auslastung jeder GPU bei mindestens 85 % gehalten werden sollte.
Bei Knoten mit acht oder mehr Karten wird empfohlen,torchrunMulti-Node-Training initiieren.
Diese Antwort stammt aus dem ArtikelVerifiers: eine Bibliothek von Verstärkungslernumgebungen für das Training großer SprachmodelleDie































