dots.ocrは、1.7Bのパラメータを持つ統一された視覚言語モデル(VLM)に基づく効率的なソリューションを提供します:
- シングルモデルアーキテクチャレイアウト検出とコンテンツ認識を1つのモデルで完結させることで、従来のマルチモデルパイプラインのパフォーマンス低下を回避。
- キュー・スイッチング・テクノロジー例:prompt_ocrやprompt_layout_only_enなど)モデルをリロードすることなく、入力プロンプトを変更してタスクを切り替える!
- 多言語最適化低リソース言語用に特別に最適化され、正確な構文解析を保証します。
- 高速推論OmniDocBenchベンチマークでSOTA性能を達成したコンパクトなモデル設計、最適な推論速度のための推奨vLLM展開
この答えは記事から得たものである。dots.ocr: 多言語文書レイアウト解析のための統一された視覚言語モデルについて