海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

SmolDocling是全球最小的视觉语言模型

2025-08-28 1.5 K

作为目前全球参数规模最小的视觉语言模型(VLM),SmolDocling仅有256M参数,该模型由ds4sd团队与IBM联合开发。基于精简架构SmolVLM-256M打造,其特点是在保持微小体积的同时实现了高效的文档处理能力。相比传统大型VLM通常需要数十亿参数,SmolDocling特别优化了模型压缩技术,使其能在普通计算设备上流畅运行。开源托管在Hugging Face平台的特性,进一步降低了技术使用门槛。

该模型的小型化设计具有多重优势:减少70%以上的显存占用,提升10倍以上的推理速度,且支持在无GPU环境下运行。实验数据显示,256M参数规模下仍能保持88.7%的文档识别准确率,特别适合嵌入式设备和边缘计算场景。这种微型化实现路径代表了VLM技术向轻量化、平民化发展的重要突破。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文