Typische Schmerzpunkte
Wenn vortrainierte Modelle wie BERT direkt zur Verarbeitung heterogener Daten aus mehreren Quellen verwendet werden, gibt es Probleme wie große Unterschiede in der Textlänge und Rauschen, die den Klassifikationseffekt beeinträchtigen.
Optimierungsprogramm
- Dynamische Segmentierung:
- Einrichtung von Daten für den Mathematikunterricht
max_length=256 - Ermöglichung des Kurzlehrbuchs Little Red Book
truncation='only_first'
- Einrichtung von Daten für den Mathematikunterricht
- Rauschfilterung:
- Gewichtung der Stichprobe über das im Datensatz enthaltene Kategoriefeld
- passieren (eine Rechnung oder Inspektion etc.)
texthero.preprocessing.remove_digitsBereinigung von digitalem Rauschen
- Verbesserte Darstellung:
- Hinzufügen von DomainAdaptation nach der letzten Schicht von BERT
- Verabschiedung des langen Textes von Zhihu
MaxPoolingErsatz fürCLStaktvoll sein
Empfehlungen für die Praxis
Empfohlene Verwendungdatasets.DatasetDictBei der Aufteilung der Trainings-/Validierungsmenge wird das Verhältnis 8:1:1 beibehalten und die Validierungsmenge sollte alle Datenkategorien (Mathematik/Logik/Allgemeines) abdecken.
Diese Antwort stammt aus dem ArtikelChinesischer Vollblut-DeepSeek-R1-Destillationsdatensatz, unterstützt chinesischen R1-Destillations-SFT-DatensatzDie































