Eine systematische Antwort auf das Problem der Überanpassung
Eine integrierte Verarbeitungslösung für die drei Dimensionen Daten, Modell und Ausbildung:
- Lösungen auf Datenebene::
- Stellen Sie sicher, dass die Menge der Trainingsdaten mehr als 1/10 der Modellparameter beträgt (z. B. erfordert ein 7B-Modell mindestens 700 MB an Daten guter Qualität).
- Entfernen doppelter Proben mit dem integrierten Datenbereinigungstool der Plattform
- Hinzufügen von 5-10% Rauschdaten Verbesserte Generalisierung
- Lösungen auf Modellebene::
- Aktivieren Sie Dropout unter "Feinabstimmungsparameter" (0,1-0,3 empfohlen)
- Verwenden Sie eine kleinere Lernrate (z. B. 1e-5) für die Vorübungsschicht und eine höhere Lernrate (z. B. 5e-4) für die neu hinzugefügte Schicht
- Der schichtweise Lernratenabfall wird verwendet, um die Lernrate schichtweise zu reduzieren.
- Lösungen auf der Ebene der Ausbildung::
- Richten Sie das Validierungsset im Evaluationstool ein (empfohlenes Verhältnis Training:Validierung = 8:2)
- L2-Regularisierung aktiviert (Gewichtsabnahmefaktor auf 0,01 gesetzt)
- Automatisches Beenden des Trainings, wenn der Verlust im Validierungssatz 3 Mal hintereinander nicht abnimmt
Zusätzlicher Vorschlag: Nachdem die Feinabstimmung abgeschlossen war, wurde die Robustheit mit der Funktion "Modellbewertung" überprüft, und die Schwankung des F1-Wertes <5% zeigte, dass die Überanpassung gut kontrolliert wurde.
Diese Antwort stammt aus dem ArtikelVolcano Ark: Big Model Training und Cloud Computing Service, Anmeldung für $150 Equivalent ArithmeticDie































