Leitlinien für den Zugang und die Nutzung des Datensatzes
Der Prozess der Verwendung des chinesischen DeepSeek-R1-Destillationsdatensatzes kann in folgende Schritte unterteilt werden:
Erfassungsmethoden
- Zugang zu den Plattformen Hugging Face oder ModelScope
- Suche nach "Chinese-DeepSeek-R1-Distill-data-110k"
- Wählen Sie das entsprechende Format (z. B. JSON, CSV usw.) zum Herunterladen des Datensatzes
Laden und Verwendung
- Vorbereitung der UmweltPython und Datasets-Bibliotheken müssen installiert sein
- Grundlegendes Laden::
from datasets import load_dataset dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k") - Anzeige der DatenGrundlegende Informationen können über print(dataset) und print(dataset['train'][0]) angezeigt werden.
Vorverarbeitung und Training
Es wird empfohlen, für die Datenvorverarbeitung und das Modelltraining Transformator-bezogene Werkzeugbibliotheken zu verwenden (z. B. die Transformatoren von Hugging Face). Der Datensatz wurde normalisiert, kann aber je nach den spezifischen Anforderungen der Aufgabe noch weiter verarbeitet werden.
Diese Antwort stammt aus dem ArtikelChinesischer Vollblut-DeepSeek-R1-Destillationsdatensatz, unterstützt chinesischen R1-Destillations-SFT-DatensatzDie































