海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

SmolDoclingは世界最小の視覚言語モデル

2025-08-28

1.8 K

直接リンクモバイルビュー

ds4sdチームとIBMによって共同開発されたSmolDoclingは、パラメータサイズが世界最小のVLM（Visual Language Model）であり、パラメータ数はわずか256Mです。無駄のないアーキテクチャSmolVLM-256Mに基づいて構築され、小さなサイズを維持しながら効率的な文書処理を実現できるのが特徴です。通常、数十億のパラメーターを必要とする従来の大規模VLMと比較して、SmolDoclingは、一般的なコンピューティング・デバイスでスムーズに実行できるよう、モデル圧縮技術を特別に最適化している。Hugging Faceプラットフォーム上のオープンソース・ホスティングの性質は、この技術を使用する障壁をさらに低くします。

このモデルの小型化設計には複数の利点がある：70%以上のメモリ占有量の削減、10倍以上の推論速度の向上、GPUレス環境での動作のサポート。実験データによれば、256Mのパラメータ規模でも88.7%の文書認識精度が維持され、特に組み込み機器やエッジコンピューティングのシナリオに適している。この小型化された実装経路は、軽量化と民生化に向けたVLM技術の発展における重要なブレークスルーを意味する。

この答えは記事から得たものである。SmolDocling：少量で効率的な文書処理のための視覚言語モデルについて

無断転載を禁じます：AI生産性ツール " SmolDoclingは世界最小の視覚言語モデル

おすすめ