针对学术文献常见的跨页文本断裂问题,PDF Craft开发了专利性的段落重组算法。该技术通过语义分析和版式识别双引擎协作:语义层面采用Bi-LSTM神经网络判断语句连贯性,准确率达到92%;版式层面通过YOLO模型检测段落缩进、行间距等视觉特征。当检测到分页截断的段落时,系统会自动将分散在两页的文字重组为完整段落,较传统正则匹配方法提升37%的准确率。实际测试显示,对于包含复杂公式和参考文献的学术论文,该系统能保持98%以上的内容连贯性,显著优于Adobe Acrobat等商业软件75%的基准水平。
Essa resposta foi extraída do artigoPDF Craft: documentos digitalizados em PDF para ferramentas de código aberto MarkdownO