Para atender às necessidades de digitalização de documentos antigos, a PDF Craft desenvolveu um módulo especial de pré-processamento. O sistema pode corrigir automaticamente a digitalização de páginas inclinadas comuns de livros antigos (suporta ± 15 graus de correção automática), lidando com fundo amarelo e marrom (usando a redução de ruído do espaço de cores HSV), reconhecimento de texto vertical (taxa de precisão de 86%). Os dados de teste mostram que, para livros antigos ingleses anteriores ao século XIX, a precisão da conversão é mantida na faixa de 85-90%, os livros canônicos chineses, devido à alta complexidade da composição tipográfica, são mantidos em 75-80%. As ferramentas também oferecem o modo de processamento em lote, suporte para conversão simultânea de mais de 2.000 páginas de uma grande coleção de documentos, com a função de dicionário externo que pode ser aprimorada em áreas específicas da taxa de reconhecimento de terminologia 15%. Esses recursos o tornam uma das ferramentas preferidas de bibliotecas e instituições de arquivo para digitalizar o patrimônio cultural.
Essa resposta foi extraída do artigoPDF Craft: documentos digitalizados em PDF para ferramentas de código aberto MarkdownO































