Eines der Hauptziele des RolmOCR-Designs ist es, die Formatbeschränkungen der traditionellen OCR zu durchbrechen. Die Palette der unterstützten Verarbeitungen umfasst:
- Gescannte Standarddokumente (PDF/PNG/JPG und andere gängige Formate)
- Nicht standardisierte Aufnahmedokumente mit einer Neigung von 15 Grad oder weniger
- Handschriftliche Notizen (gemischter chinesischer und englischer Inhalt)
- Einfaches Layout von PDF-Formularen ohne Metadaten
Die technische Umsetzung erreicht dieses Ziel durch zwei Innovationen: die Verwendung eines visuellen Sprachmodells anstelle eines rein visuellen Modells, um das kontextuelle Verständnis zu verbessern; und die Trainingsdaten enthalten 201 TP3T von Handschriftproben und 151 TP3T von Rotationsproben. Die Testdaten zeigen:
- Erkennungsgenauigkeit der Druckkörper von 98,7%
- Handschrifterkennungsgenauigkeit von 92,31 TP3T (111 TP3T Verbesserung gegenüber dem Vorgänger)
- Korrekte Erkennung von schrägen Dokumenten übersteigt 95%
Diese Eigenschaft verschafft ihm einen einzigartigen Vorteil in Szenarien wie der Digitalisierung von akademischen Dokumenten und der Verarbeitung von Unternehmensarchiven.
Diese Antwort stammt aus dem ArtikelRolmOCR: Dokument-OCR-Modell zur Erkennung von handgeschriebenen und schrägen SchriftzeichenDie