Umfassende Maßnahmen zur Vorbeugung und Kontrolle der Überanpassung
Gegen das Risiko der Überanpassung im Search-R1-Trainingsprozess werden folgende Schutzmaßnahmen empfohlen:
- Ebene der Daten::
- Stellen Sie sicher, dass die Trainingsmenge groß genug ist (>100.000 Stichproben empfohlen)
- existieren
data_processStufe Datenerweiterung hinzufügen
- Modellebene::
- Dropout-Schicht aktiviert (Standardwahrscheinlichkeit 0,1)
- ausnutzen
weight_decay=0.01L2-Regularisierung durchführen
- Ausbildungsstrategien::
- Verabschiedung eines Frühstoppmechanismus (
early_stopping_patience=3) - Legen Sie das Abklingen der Lernrate fest (
lr_scheduler_type=cosine)
- Verabschiedung eines Frühstoppmechanismus (
Überwachungs- und Validierungsmethoden:
- Überwachung der Zug/Val-Verlustkurve über Wandb
- Regelmäßig in
eval_steps=500Bei der Validierung von Testsätzen - Sonde
Full experiment log 2Die generelle Lücke in der
Notfallbehandlungsprogramm: sofort, wenn ein Abfall der für die Validierung festgelegten Metriken festgestellt wird:
1. verringerte Lernrate 50%
2. das Volumen der Trainingsdaten zu erhöhen
3. das Einfrieren von Teilen der Netzwerkschicht
Diese Antwort stammt aus dem ArtikelSearch-R1: Verstärkungslernen zum Trainieren großer Modelle für Suche und SchlussfolgerungenDie































