Speicherverwaltungsschema für das Training großer Modelle
Für das parametrische Modell 3B+ wird die folgende Strategie empfohlen:
- verteilte Ausbildung: Einstellungen
N_GPUS=2Ermöglicht den parallelen Betrieb mehrerer Karten und die Synchronisierung von EinstellungenROLLOUT_TP_SIZE=2Anzahl der passenden GPUs - Optimierung anweisenVerwendung des Modells QWen-2.5-3B
--template_type=qwen-instructParametrische Verbesserung der Fähigkeit, Befehle zu befolgen - Optimierung des Videospeichers: bei der Installation von flash-attn hinzufügen
--no-build-isolationParameter zur Gewährleistung der Kompatibilität - Chargenkontrolle: in
train_tiny_zero.shAnpassen der Stapelgrößen zum Ausgleich von Speichernutzung und Trainingsgeschwindigkeit in der
Vorschläge für die Benennung von Experimenten beinhalten Informationen zum Modellmaßstab, wie z. B.countdown-qwen2.5-3b-instruct. Es ist wichtig, dass Sie sich vor der Ausbildung vergewissern, dass Sie die folgende Prüfung bestanden habenconda activate zeroAktivieren Sie die Umgebung und richten Sie sie korrekt einDATA_DIRPfadvariablen des Datensatzes.
Diese Antwort stammt aus dem ArtikelTinyZero: eine kostengünstige Nachbildung von DeepSeeK-R1 Zeros Epiphanie-EffektDie































