ReductoのAIチームは、データ強化とモデルチューニングという2つの主要な戦略を通じて、RolmOCRの認識性能を向上させています。技術的なソリューションは以下の通りです:
- トレーニングデータセットには、傾き順応を高めるために回転させた151 TP3Tのサンプルが含まれる。
- 20%の手書きサンプルにより、従来とは異なるフォントの認識が向上
- 対照学習損失関数を用いた文字識別の強化
- Qwen2.5-VLに基づくクロスモーダル事前学習アーキテクチャ
これらの最適化により、パフォーマンスが大幅に向上した:
- ベースモデル37%と比較して、手書き認識エラー率を低減
- 歪んだ文書の単語レベルの精度が28ポイント向上
- 複雑な文脈でのテキスト抽出成功率 90% を破る
学術論文のスキャンコピー処理、歴史的アーカイブのデジタル化、組版が混在する多言語文書の認識といったシナリオにおいて、このソリューションが優れていることは、実際のアプリケーションによって証明されている。チームは今後も、データの反復を通じてモデルの性能を最適化していく。
この答えは記事から得たものである。RolmOCR: 手書き文字と斜め文字を認識する文書OCRモデルについて