このシステムは、文書内のコンテンツ要素の6つのカテゴリ(通常のテキストエリア、データテーブル、数式、イメージイラスト、ヘッダーとフッター、特殊記号)を正確に識別します。各要素は分類されラベル付けされるだけでなく、ピクセル精度のバウンディングボックス座標(bbox)も出力され、その検出精度は学術論文のような複雑な文書で90%を超えます。表コンテンツの場合、システムはW3C準拠のHTMLコードを生成し、数式はLaTeX構文に変換され、数式構造の完全性と編集性を維持します。このきめ細かな構文解析機能により、科学研究文献や技術文書の処理に特に適しています。
この答えは記事から得たものである。dots.ocr: 多言語文書レイアウト解析のための統一された視覚言語モデルについて