GraphGen's eingebaute Anti Overfitting Strategie:
- Schutzmechanismen für die Vielfalt::
1. die AnnahmestyleDie parametrische Steuerung (knapp/ausführlich/medizinisch usw.) erzeugt Ausdrucksvariationen
2) Das Multi-Skip-Sampling generiert automatisch Fragen und Antworten aus mehreren Perspektiven zum selben Wissenspunkt.
3) Das integrierte Modul zur Rekonstruktion von Q&A erzeugt verschiedene Darstellungen derselben Semantik. - Programm zur Datenvalidierung::
- inconfigs/graphgen_config.yamlaktivieren.diversity_check: true
- Das Ausgabeverzeichnis erzeugtdiversity_report.jsonEnthält Indikator für Wiederholungsrate
- Es wird empfohlen, eine Einheitswiederholungsrate von <151 TP3T beizubehalten, die durch Erhöhung der Eingangsdatenmenge angepasst werden kann. - Empfehlungen zur Ausbildung::
- Es wird eine 1:2-Mischung aus synthetischen und realen Daten empfohlen.
- Vorrangig werden Basismodelle mit einer parametrischen Größe von 7B und mehr berücksichtigt.
- Überwachen Sie den Verlust des Validierungssatzes beim vorzeitigen Abbruch (vorzeitiger Abbruch)
Projekttests haben gezeigt, dass dieses Schema das Risiko einer Überanpassung um 671 TP3T reduziert (im Vergleich zum Training auf rein synthetischen Daten).
Diese Antwort stammt aus dem ArtikelGraphGen: Feinabstimmung von Sprachmodellen mithilfe von Wissensgraphen zur Erzeugung synthetischer DatenDie































