PDF Craftは、古文書のデジタル化ニーズに対応するため、特別な前処理モジュールを開発しました。このシステムは、スキャンされた古書の一般的な傾いたページを自動的に補正し(±15度の自動補正をサポート)、黄色や茶色の背景を処理し(HSV色空間ノイズ除去を使用)、縦書きのテキストを認識することができます(精度86%)。テストデータによると、19世紀以前の英語の古書では、変換精度は85〜90%の範囲に維持され、活字の高い複雑さに起因する中国の正典の本は75〜80%に維持されます。ツールはまた、バッチ処理モード、外部辞書機能を持つ文書の大規模なコレクションの2,000ページ以上の同時変換のためのサポートを提供し、専門用語の認識率15%の特定の分野で改善することができます。このような特徴から、図書館やアーカイブ機関など、文化遺産のデジタル化に適したツールの1つとなっている。
この答えは記事から得たものである。PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツールについて