内容完整性保障体系
应对章节丢失的三重防护:
- 事前检查:
- 运行
python app/check_chapters.py
验证爬取完整性 - 在
logs/crawl.log
中检索ERROR标记
- 运行
- 过程监控:
- 启用章节校验功能(设置
VERIFY_CHAPTER=True
) - 使用
watch -n 60 "ls -l output/ | wc -l"
实时监控生成进度
- 启用章节校验功能(设置
- 事后补救:
- 单独重跑缺失章节:
python app/createAudio.py --chapter 42
- 从MongoDB恢复数据(需先安装配置):
python app/db_recover.py
- 单独重跑缺失章节:
开发建议:定期备份data/books/
目录下的JSON中间文件,当使用云服务时建议启用S3自动同步。
本答案来源于文章《自动爬取小说并生成多角色有声书的工具》