SmolDoclingは、プロフェッショナルな複合文書処理能力を備えており、文書要素の6つのカテゴリーを正確に識別し、変換することができます:まず第一に、OCRテキスト抽出で、187言語の認識をサポートし、そのレイアウト認識エンジンは、文書の元の組版構造を復元することができます。MathML標準フォーマットへの変換、ベクトル解析技術によるデータポイントの抽出によるグラフ処理、適応アルゴリズムによる行と列の関係維持による表認識。これらの機能は、特許取得済みのDocTagsマークアップ言語を通じて構造化された結果を出力する、統一された処理フローに統合されています。
技術テストによると、このモデルはA4サイズの文書を平均3.2秒(GPU環境)で処理し、認識精度はプロフェッショナル文書処理ソフトウェアの90%レベルに達しています。特にコード認識シナリオでは、フォーマットの完全性を保持する能力が従来のOCRツールを40%以上上回っています。このマルチモーダル処理能力により、技術文書のデジタル化に最適なソリューションとなっています。
この答えは記事から得たものである。SmolDocling:少量で効率的な文書処理のための視覚言語モデルについて






























