SmolDocling 是由 ds4sd 团队与 IBM 合作开发的一款视觉语言模型(VLM),基于 SmolVLM-256M 打造。其核心特点是小体积(仅 256M 参数)和高效率,特别适合在普通设备上运行。模型托管在 Hugging Face 平台,是全球最小的视觉语言模型。
Os principais recursos incluem:
- Extração de texto (OCR):支持多语言文本识别
- 布局解析:自动识别标题、段落等文档结构
- 专业内容处理:可提取代码块(保留格式)、数学公式和图表数据
- Saída estruturada:生成标准化的 DocTags 格式文档
- Suporte a alta resolução:优化对大尺寸图片的处理能力
与其他通用视觉模型不同,SmolDocling 专门针对文档转换任务进行了优化,特别适合学术研究、编程文档处理等需要精确解析复杂排版的应用场景。
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO