このシステムの革新的な点は、入力コマンドを変更するだけで処理モードを切り替えることができるプロンプト制御機構を導入したことである。例えば、prompt_layout_only_enコマンドを使用すると、英文文書のレイアウト解析のみが行われ、prompt_ocrモードではテキスト抽出に重点を置き、装飾的なコンテンツを自動的にフィルタリングする。この設計により、モデルの再読み込みを必要とする従来の方法と比較して、タスクの切り替え時間を80%以上短縮することができる。このシステムには、7つのプロフェッショナルなプロンプトテンプレートがあらかじめ組み込まれており、フル機能の構文解析から特定の要素の抽出まで、さまざまなシナリオに対応しています。
この答えは記事から得たものである。dots.ocr: 多言語文書レイアウト解析のための統一された視覚言語モデルについて