训练容错与恢复方案
针对意外中断的情况:
- 检查点配置::
- 在配置文件中设置
save_every_n_epochs: 1
- começar a usar
resume: true
自动恢复选项
- 在配置文件中设置
- 安全中断流程::
- fazer uso de
SIGTERM
信号而非Ctrl+C强制终止 - 等待控制台输出
checkpoint saved
chamar a atenção para algo
- fazer uso de
- 恢复训练::
- 重新执行
python run.py config/my_config.yml
- 系统会自动加载
output/last.ckpt
- 重新执行
Resposta a emergências:
1. 若出现文件损坏,使用flux_utils.py
acertou em cheio--repair
参数修复
2. 备份training_state
目录到云端
Essa resposta foi extraída do artigoKit de ferramentas de IA da Ostris: Difusão estável com o kit de ferramentas de treinamento de modelos FLUX.1O