中文文档兼容性解决方案
确保中文PDF正确处理需要以下步骤:
- 环境配置:
- 确认系统区域设置为中文(简体)
- 安装中文字体包:`sudo apt install fonts-wqy-zenhei`(Linux)
- 在Python虚拟环境中安装`pdfminer.six`的UTF-8支持版本
- 预处理技巧:
- 先用Calibre将PDF转为EPUB格式
- 使用中文OCR工具(如PaddleOCR)处理扫描件
- 检查原文编码:`file -i input.pdf`
- 运行时参数:添加–lang zh参数强制中文模式,或在config.ini中设置default_encoding=utf-8
遇到复杂版式时,建议先用Adobe Acrobat导出纯文本,再进行处理。
本答案来源于文章《Local-NotebookLM:本地PDF生成语音播客的开源工具》