训练容错与恢复方案
针对意外中断的情况:
- 检查点配置:
- 在配置文件中设置
save_every_n_epochs: 1
- 启用
resume: true
自动恢复选项
- 在配置文件中设置
- 安全中断流程:
- 使用
SIGTERM
信号而非Ctrl+C强制终止 - 等待控制台输出
checkpoint saved
提示
- 使用
- 恢复训练:
- 重新执行
python run.py config/my_config.yml
- 系统会自动加载
output/last.ckpt
- 重新执行
应急处理:
1. 若出现文件损坏,使用flux_utils.py
中的--repair
参数修复
2. 备份training_state
目录到云端
本答案来源于文章《AI Toolkit by Ostris:Stable Diffusion与FLUX.1模型训练工具包》