当前位置：首页 » AI答疑

怎样提升多语言混合文档的文本提取完整率？

2025-08-25

1.4 K

多语言文档提取优化方案

针对英语/日语/韩语混合文档，VOP提供三级处理策略：

语言包配置：
1. 编辑config/languages.json添加语言组合
2. 安装对应Tesseract语言包（如tesseract-langpack-jpn）
运行参数：使用--lang eng+jpn+kor明确指定语言组合，注意：
- 语言顺序按文档占比降序排列
- 每种语言用+连接无空格
后处理优化：
1. 阶段1输出后检查temp/lang_detect.log
2. 对识别率低的页面单独调整语言权重

实践建议：对于中日韩混排表格，优先使用--mode table配合Google Vision API（需在google_credentials.json启用documentai.googleapis.com服务）。