Der Einsatz einer PyTorch-Trainingsaufgabe ist in vier Hauptschritte unterteilt:
- Vorbereitung der UmweltUm Python 3.8+ zu installieren und eine virtuelle Umgebung zu erstellen, führen Sie
pip install "skypilot[all]"Installieren Sie das gesamte Abhängigkeitspaket. - Schreiben einer YAML-Konfiguration: Schöpfung
train.yamlDas Dokument definiert den Ressourcenbedarf und die Ausführungslogik:resources:
accelerators: A100:1
num_nodes: 1
setup: |
pip install torch torchvision
run: |
python main.py --epochs 10 - Aufgaben einleiten: Lauf
sky launch -c my-cluster train.yamlDas System wird automatisch die optimalen Cloud-Ressourcen auswählen. - RMON: durch
sky statusUm den Cluster-Status anzuzeigen, verwenden Sie den Befehlsky logs my-clusterEchtzeit-Protokolle abrufen.
Erweiterte Tipps: Hinzufügen--use-spotVerwenden Sie eine kostengünstige Spot-Instanz, oder geben Sie--cloud cheapestErmöglichen Sie die vollautomatische Auswahl von Cloud-Händlern.
Diese Antwort stammt aus dem ArtikelSkyPilot: ein Open-Source-Framework für die effiziente Ausführung von KI- und Batch-Aufgaben in jeder CloudDie































