フォールト・トレランスとリカバリー・プログラムのトレーニング
予期せぬ中断のために:
- チェックポイントの設定::
- コンフィギュレーション・ファイルでの設定
save_every_n_epochs: 1
- 使い始める
resume: true
自動回復オプション
- コンフィギュレーション・ファイルでの設定
- 安全な中断プロセス::
- 利用する
SIGTERM
Ctrl+Cではなくシグナルで強制終了する - コンソール出力を待つ
checkpoint saved
注意を引く
- 利用する
- トレーニング再開::
- 再実行
python run.py config/my_config.yml
- システムは自動的に
output/last.ckpt
- 再実行
緊急時の対応
1.ファイルが破損している場合flux_utils.py
正鵠を得る--repair
パラメータ修復
2.バックアップtraining_state
カタログをクラウドへ
この答えは記事から得たものである。オストリスによるAIツールキット:FLUX.1モデルトレーニングツールキットによる安定した拡散について