海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI知识

RAG 的成败关键:被忽视的文档解析环节

2025-08-02 19

在构建检索增强生成(RAG)系统时,开发者常常会遇到以下令人困惑的场景:

  • 跨页表格的表头被遗留在上一页,导致数据失去关联。
  • 模型面对模糊的扫描件,自信地给出完全错误的内容。
  • 数学公式中的求和符号“Σ”被错误地识别为字母“E”。
  • 文档中的水印或脚注被当作正文内容提取,干扰了信息的准确性。

当系统无法给出正确答案时,将问题直接归咎于大语言模型(LLM)或许为时过早。在多数情况下,问题的根源在于文档解析这个初始环节的失败。

设想一个医药领域的应用场景。一份记录药物不良反应的 PDF 文档,通常采用双栏排版,并在页面之间存在浮动的文本框。若使用一个声称文字提取准确率高达 99% 的开源工具进行解析,可能会得到如下碎片化的结果:

第一页末尾:...注意事项(不完整)
第二页开头:特殊人群用药...(无上下文)

在 RAG 系统进行索引时,这两个缺乏语义关联的文本片段被切分到不同的区块(Chunk)中。当用户查询“药物 X 在肝功能不全患者中的使用禁忌”时,系统可能只检索到包含“禁忌”关键词的段落。然而,由于该段落丢失了“特殊人群用OCK”这一关键的上下文标题,导致模型无法提供完整、准确的答案。

这充分说明,文档解析的质量直接决定了 RAG 系统性能的上限。

文档解析为何如此复杂?

文档解析并非单一的算法工具,而是一套复杂的解决方案。它的复杂性来源于以下多个维度的挑战组合:

  • 文档格式:PDF、Word、Excel、PPT、Markdown 等格式的处理方式各不相同。
  • 业务领域:学术论文、商业报告、财务报表等不同文档具备独特的版面风格。
  • 语种:不同语言的识别需要依赖相应的语料库进行模型训练。
  • 文档元素:段落、标题、表格、公式、角标等元素的精确还原,是帮助 LLM 理解文章层次结构的关键。
  • 页面布局:单栏、双栏、多栏混合等布局直接影响阅读顺序的正确还原。
  • 图像内容:文本 OCR、手写体识别、图像分辨率优化等问题,在图文混排的场景中尤为突出。
  • 表格结构:表格中的合并单元格、跨页、嵌套等复杂结构,使其解析既不同于文本,也不同于图像。
  • 附加能力:智能切分(Chunking)虽然不是解析的本职工作,但高质量的切分,特别是对超大表格的处理,能显著提升问答效果。

没有任何一款单一工具能在上述所有维度上都表现出色。因此,不加思考地选用开源工具,往往会导致顾此失彼,难以满足高质量的应用需求。

如何科学评估文档解析工具?

既然不存在完美的通用工具,那么如何评估特定场景下的最优选择?上海人工智能实验室的一项研究成果为此提供了参考。这项被计算机视觉顶级会议 CVPR 2024 接收的研究,推出了一个专门用于评估 PDF 文档解析能力的基准——OmniDocBench

OmniDocBench 从 20 万份 PDF 文档中提取视觉特征,通过聚类分析筛选出 6000 个具有显著差异化的页面,并最终对其中的 981 个页面进行了精细化标注。其标注维度非常丰富,覆盖了布局边界框、布局属性、阅读顺序和层级关系等,尤其对跨页内容的关联性标注非常友好。

在评估指标上,OmniDocBench 针对文本、表格、公式和阅读顺序等不同维度,分别采用了归一化编辑距离(NED)、基于树编辑距离的相似度(TEDS)和 BLEU 等多种算法,以确保评估的全面性和公正性。

各维度下的领先者是谁?

OmniDocBench 的评估报告揭示了一个有趣的趋势。


(来源:https://arxiv.org/abs/2402.07626)


(来源:https://github.com/opendatalab/OmniDocBench/blob/main/README_zh-CN.md)

在项目早期的论文图中,各类传统文档解析工具在不同维度上竞争激烈,各有千秋。然而,当通用视觉大模型(如 Gemini 1.5 Pro)被纳入评测后,其强大的综合能力使其在各项指标上都取得了领先地位。

这种优势源于 Gemini 等原生多模态大模型能够端到端地处理图像和文本信息,从而更好地理解文档的整体布局和语义。但这种强大的能力也伴随着高昂的成本。

以 Gemini 1.5 Pro 为例,尽管它能准确识别潦草的手写体,但在处理一个包含多个合并单元格和角标的复杂表格时,仍然出现了明显的解析错误。


(使用 Gemini 1.5 Pro 解析复杂表格时的出错示例)

更关键的是成本问题。仅仅解析这一页 PDF,就花费了约 1.2 元人民币。费用的主要来源是模型输出的 Token 数量,这对于需要大规模处理文档的企业而言,是一笔巨大的开销。


(使用 Gemini 1.5 Pro 解析文档的成本消耗示例)

因此,Gemini 并非适用于所有场景的万能解药。在 Gemini 之外,业界还有 unstructured.ioMarker 和 PyMuPDF 等众多优秀的开源或商业解决方案,它们在特定任务和成本控制上可能更具优势。正确的选择始于对应用场景的清晰定义,需要在性能、成本和特定需求之间找到平衡。

实用建议

在构建或优化 RAG 系统时,开发者可以参考以下步骤来攻克文档解析这一难题:

  1. 诊断文档库:审查你的文档,识别出最棘手的合同、报告或扫描件,明确其中的主要挑战是来自于复杂表格、数学公式还是特殊的页面布局。
  2. 针对性验证:对照 OmniDocBench 或其他评测报告,选择一到两款在特定维度上表现出色的工具进行针对性验证,找到最适合自身业务需求的解决方案。
  3. 持续关注前沿:文档解析技术仍在快速发展,持续关注 OmniDocBench 这类基准研究和新兴的解析工具,能帮助你不断优化系统性能。

相关研究

  • OmniDocBench 论文:https://arxiv.org/abs/2402.07626

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文