Qwen2.5-VL在文档解析方面具备以下独特能力:
- 复杂格式识别:可以处理含手写文字、复杂表格、化学公式和技术图表的专业文档
- Suporte multilíngue:能解析多种语言文字混合的文档
- 布局理解:理解文档的物理与逻辑结构,如区分标题、正文和脚注
- Saída estruturada:可将自由格式文档转换为JSON等结构化数据
提取表格数据的具体方法:
- 将包含表格的PDF文档或图片上传至系统
- 构建包含”提取表格数据”指令的messages
- 模型会返回结构化的表格数据,通常格式为:
[{“列名1″:”值1″,”列名2″:”值2”},…] - 可根据需要指定特定表格或特定列的数据提取
特殊功能:
- 能处理跨页表格和复杂合并单元格
- 支持表格内容的语义标注和分类
- 可以将扫描件中的手写表格数字转换为可计算格式
Essa resposta foi extraída do artigoQwen2.5-VL: um grande modelo multimodal de código aberto para análise de documentos de imagem e vídeoO