ds4sdチームとIBMによって共同開発されたSmolDoclingは、パラメータサイズが世界最小のVLM(Visual Language Model)であり、パラメータ数はわずか256Mです。無駄のないアーキテクチャSmolVLM-256Mに基づいて構築され、小さなサイズを維持しながら効率的な文書処理を実現できるのが特徴です。通常、数十億のパラメーターを必要とする従来の大規模VLMと比較して、SmolDoclingは、一般的なコンピューティング・デバイスでスムーズに実行できるよう、モデル圧縮技術を特別に最適化している。Hugging Faceプラットフォーム上のオープンソース・ホスティングの性質は、この技術を使用する障壁をさらに低くします。
このモデルの小型化設計には複数の利点がある:70%以上のメモリ占有量の削減、10倍以上の推論速度の向上、GPUレス環境での動作のサポート。実験データによれば、256Mのパラメータ規模でも88.7%の文書認識精度が維持され、特に組み込み機器やエッジコンピューティングのシナリオに適している。この小型化された実装経路は、軽量化と民生化に向けたVLM技術の発展における重要なブレークスルーを意味する。
この答えは記事から得たものである。SmolDocling:少量で効率的な文書処理のための視覚言語モデルについて






























