当前位置：首页 » AI答疑

SmolDocling是全球最小的视觉语言模型

2025-08-28

1.7 K

作为目前全球参数规模最小的视觉语言模型(VLM)，SmolDocling仅有256M参数，该模型由ds4sd团队与IBM联合开发。基于精简架构SmolVLM-256M打造，其特点是在保持微小体积的同时实现了高效的文档处理能力。相比传统大型VLM通常需要数十亿参数，SmolDocling特别优化了模型压缩技术，使其能在普通计算设备上流畅运行。开源托管在Hugging Face平台的特性，进一步降低了技术使用门槛。

该模型的小型化设计具有多重优势：减少70%以上的显存占用，提升10倍以上的推理速度，且支持在无GPU环境下运行。实验数据显示，256M参数规模下仍能保持88.7%的文档识别准确率，特别适合嵌入式设备和边缘计算场景。这种微型化实现路径代表了VLM技术向轻量化、平民化发展的重要突破。

本答案来源于文章《SmolDocling：小体积高效处理文档的视觉语言模型》

未经允许不得转载：AI生产力工具 » SmolDocling是全球最小的视觉语言模型

SmolDocling是全球最小的视觉语言模型

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

SmolDocling是全球最小的视觉语言模型

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具