训练容错与恢复方案
针对意外中断的情况:
- 检查点配置::
- 在配置文件中设置
save_every_n_epochs: 1
- .
resume: true
自动恢复选项
- 在配置文件中设置
- 安全中断流程::
- ausnutzen
SIGTERM
信号而非Ctrl+C强制终止 - 等待控制台输出
checkpoint saved
auf etw. aufmerksam machen
- ausnutzen
- 恢复训练::
- 重新执行
python run.py config/my_config.yml
- 系统会自动加载
output/last.ckpt
- 重新执行
应急处理:
1. 若出现文件损坏,使用flux_utils.py
den Nagel auf den Kopf treffen--repair
参数修复
2. 备份training_state
目录到云端
Diese Antwort stammt aus dem ArtikelAI Toolkit von Ostris: Stabile Diffusion mit FLUX.1 Model Training ToolkitDie