双模型架构在PDF解析中实现性能与精度的平衡

2025-08-25

1.3 K

智能模型的差异化设计

该工具设计了VGT视觉模型和LightGBM轻量级模型的双架构方案，为不同场景提供最优解。VGT模型采用Vision Grid Transformer技术，在GPU支持下可实现95%以上的布局识别准确率，特别适合处理包含复杂公式和嵌套表格的学术论文。

LightGBM模型作为轻量级替代方案，具有以下特点：

测试数据显示，VGT模型在GPU加速下处理相同文档的耗时为1.75秒/页，而CPU模式下延长至13.5秒/页。这种弹性架构设计让用户能根据硬件条件和精度需求灵活选择处理方案。