ソリューション:SkyPilotのGPUスケジューリングとコスト最適化機能の活用
背景:NVIDIA A100のようなハイエンドGPUは、クラウド地域によって最大300%の価格差があり、しばしば在庫切れの問題に直面する。
- コア・プログラム
- スポット・インスタンスは自動的に管理されるタスク開始時に追加
--use-spotパラメータを使用すると、システムは自動的に60-90%の低価格のSpotインスタンスを使用し、障害が発生した場合に再スケジューリングする。 - グローバル・リソース・ビュー実施
sky show-gpus全クラウドリージョンのGPUタイプ/価格/在庫をリアルタイムで表示 - 耐障害性メカニズム希望するGPUが在庫切れの場合、システムが自動的にこれを試みます:
- 同じプラットフォームの他の地域
- その他のクラウド・サービス・プロバイダー
- 同様の性能を持つ代替GPUモデル
- スポット・インスタンスは自動的に管理されるタスク開始時に追加
- 実践への提言
- 次のような代替リソースをYAMLで設定する。
accelerators: [A100:1, T4:2]優先順位はA100、次いでT4交換2回を示す - 長時間のミッションの場合は、次のようなペアリングをお勧めします。
--cloud spot-check-interval 300パラメータは5分ごとにスポット・インスタンスの状態をチェックする - 利用する
resources.disk_sizeゾーン変更によるデータ損失を避けるため、大容量の一時ストレージを設定する。
- 次のような代替リソースをYAMLで設定する。
効果:実用的なテストにより、このアプローチにより、100時間のA100トレーニングタスクのコストを$300から$50に削減でき、タスク成功率を98%以上に維持できることが示された。
この答えは記事から得たものである。SkyPilot: あらゆるクラウドでAIとバッチタスクを効率的に実行するオープンソースフレームワークについて































