该系统能精确识别文档中的六大类内容元素:常规文本区域、数据表格、数学公式、图像插图、页眉页脚以及特殊符号。每种元素不仅会被分类标记,还能输出像素级精度的边界框坐标(bbox),其检测准确率在学术论文等复杂文档上超过90%。对于表格类内容,系统可生成符合W3C标准的HTML代码;数学公式则转换为LaTeX语法表示,保持公式结构的完整性和可编辑性。这种细粒度的解析能力使其特别适合处理科研文献和技术文档。
This answer comes from the articledots.ocr: a unified visual-linguistic model for multilingual document layout parsingThe