海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

什么是 SmolDocling,它有哪些核心功能?

2025-08-28 1.5 K

SmolDocling 是由 ds4sd 团队与 IBM 合作开发的一款视觉语言模型(VLM),基于 SmolVLM-256M 打造。其核心特点是小体积(仅 256M 参数)和高效率,特别适合在普通设备上运行。模型托管在 Hugging Face 平台,是全球最小的视觉语言模型。

主要功能包括:

  • 文字提取(OCR):支持多语言文本识别
  • 布局解析:自动识别标题、段落等文档结构
  • 专业内容处理:可提取代码块(保留格式)、数学公式和图表数据
  • 结构化输出:生成标准化的 DocTags 格式文档
  • 高分辨率支持:优化对大尺寸图片的处理能力

与其他通用视觉模型不同,SmolDocling 专门针对文档转换任务进行了优化,特别适合学术研究、编程文档处理等需要精确解析复杂排版的应用场景。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文