训练容错与恢复方案
针对意外中断的情况:
- 检查点配置::
- 在配置文件中设置
save_every_n_epochs: 1
- 使い始める
resume: true
自动恢复选项
- 在配置文件中设置
- 安全中断流程::
- 利用する
SIGTERM
信号而非Ctrl+C强制终止 - 等待控制台输出
checkpoint saved
注意を引く
- 利用する
- 恢复训练::
- 重新执行
python run.py config/my_config.yml
- 系统会自动加载
output/last.ckpt
- 重新执行
应急处理:
1. 若出现文件损坏,使用flux_utils.py
正鵠を得る--repair
参数修复
2. 备份training_state
目录到云端
この答えは記事から得たものである。オストリスによるAIツールキット:FLUX.1モデルトレーニングツールキットによる安定した拡散について