このモデルの学習データには、200万以上の多言語文書サンプルが含まれており、チベット語やスワヒリ語などの39の低リソース言語のサポートが特別に強化されています。追加のアノテーションデータに依存することなく、言語横断的な移行学習と敵対的学習技術により、このモデルの小言語認識精度は、主流のOCRシステムと比較して平均47%向上している。テストによると、このシステムは、ユーザーが英語のキュー単語を提供するだけでも、非ラテン文字の組版構造と内容を正しく認識することができ、これは国境を越えたビジネス文書や多言語アーカイブを処理する上で大きな価値がある。
この答えは記事から得たものである。dots.ocr: 多言語文書レイアウト解析のための統一された視覚言語モデルについて