SmolDoclingは、ds4sdチームがIBMと共同でSmolVLM-256Mをベースに開発した視覚言語モデル(VLM)です。その主な特徴は、サイズが小さく(パラメータはわずか256M)、効率が高いことで、特に一般的なデバイスでの実行に適しています。このモデルはHugging Faceプラットフォーム上でホストされており、世界最小の視覚言語モデルです。
主な特徴は以下の通り:
- テキスト抽出(OCR)多言語テキスト認識のサポート
- レイアウト解析見出しや段落などの文書構造を自動認識。
- プロフェッショナルなコンテンツ処理コードブロック(予約形式)、数式、グラフデータを抽出できます。
- 構造化出力標準化されたDocTags形式のドキュメントを生成します。
- 高解像度対応大きな画像サイズの取り扱いを最適化します。
他の汎用ビジュアルモデルとは異なり、SmolDoclingは文書変換タスクに最適化されており、学術研究、プログラミング文書処理、および複雑なタイプセットの正確な解析を必要とするその他のアプリケーションに特に適しています。
この答えは記事から得たものである。SmolDocling:少量で効率的な文書処理のための視覚言語モデルについて





























