DocTags是开发团队专门设计的结构化文档标记语言,采用JSON-LD语义框架构建。该格式将视觉识别结果转换为机器可读的层次化数据:文本内容保留原始位置坐标信息,文档元素间关系通过拓扑图谱表示,公式和代码等专业内容使用标准化的内容标签。这种设计既保持人类可读性,又支持自动化处理,实现97%的信息保真度。
实际应用中,DocTags可以通过配套的docling_core库一键转换为Markdown、HTML或LaTeX等12种常见格式。测试数据显示,从DocTags到Markdown的转换效率达到每秒2000个标记项,转换过程不会丢失任何结构性信息。该格式还支持版本追踪和增量更新,特别适合文档协同编辑场景。
This answer comes from the articleSmolDocling: a visual language model for efficient document processing in a small volumeThe