Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O OCRFlux é uma ferramenta leve e de código aberto voltada para a conversão de arquivos PDF e imagens em um formato Markdown claro. Ela foi desenvolvida pela equipe do ChatDOC, com base nos parâmetros 3B do modelo multimodal da construção de grande porte, e pode ser executada em hardware comum, como a GTX 3090. A ferramenta é boa para lidar com layouts complexos de documentos, analisando com precisão formatos com várias colunas e tabelas complexas, além de oferecer suporte à mesclagem automática de conteúdo entre páginas. Em comparação com outros modelos de OCR de código aberto, o OCRFlux se destaca em termos de precisão, especialmente no processamento de tabelas e parágrafos. Ele oferece uma operação de linha de comando fácil de usar, adequada para desenvolvedores, pesquisadores e usuários que precisam converter documentos para o formato Markdown. O projeto é de código aberto no GitHub sob a licença Apache 2.0, com uma comunidade ativa e 1,7 mil estrelas.

 

Lista de funções

  • Converta PDFs e imagens para o formato Markdown, preservando a ordem natural de leitura.
  • Suporte para processamento de layout complexo, incluindo documentos com várias colunas, ilustrações e conteúdo incorporado.
  • Analisa automaticamente tabelas complexas e oferece suporte à saída de tabelas HTML rowspan e colspan.
  • Mesclagem de conteúdo entre páginas, que detecta e integra automaticamente tabelas e parágrafos entre páginas.
  • Oferece reconhecimento de texto de alta precisão com EDS (Edit Distance Similarity) de até 0,967.
  • Baseado em um modelo multimodal paramétrico 3B, compatível com a operação normal da GPU.
  • De código aberto e gratuito, o código e a documentação estão disponíveis publicamente no GitHub, e as contribuições da comunidade são apoiadas.

Usando a Ajuda

Processo de instalação

O OCRFlux é uma ferramenta baseada no Docker que requer um ambiente Docker para ser instalada e executada. Veja a seguir as etapas detalhadas de instalação:

  1. Instalando o Docker
    Certifique-se de que o Docker esteja instalado em seu sistema; caso contrário, visite o site do Docker para fazer download e instalar a versão apropriada para seu sistema operacional. Após a conclusão da instalação, execute o seguinte comando para verificá-la:

    docker --version
    

  1. Puxar o espelho do OCRFlux
    Execute o seguinte comando em um terminal para extrair a imagem mais recente do OCRFlux do Docker Hub:

    docker pull chatdoc/ocrflux:latest
    
  2. Preparar o caminho do arquivo
    Crie um diretório de trabalho local (por exemplo /path/to/localworkspace) é usado para armazenar arquivos de entrada e saída. Certifique-se de que você tenha os seguintes diretórios:

    • Digite o diretório do arquivo PDF (por exemplo /path/to/test_pdf_dir).
    • Diretório do arquivo de modelo do OCRFlux (por exemplo /path/to/OCRFlux-3B). Os arquivos do modelo devem ser baixados do repositório oficial do GitHub ou de um link fornecido pelo ChatDOC.
  3. Executando o OCRFlux
    Use o seguinte comando para iniciar o contêiner do OCRFlux, montar o diretório local e especificar o PDF de entrada e os caminhos do modelo:

    docker run -it --gpus all \
    -v /path/to/localworkspace:/localworkspace \
    -v /path/to/test_pdf_dir:/test_pdf_dir \
    -v /path/to/OCRFlux-3B:/OCRFlux-3B \
    chatdoc/ocrflux:latest /localworkspace --data /test_pdf_dir/* --model /OCRFlux-3B/
    
    • --gpus allGPU: habilita a aceleração da GPU (remova esse parâmetro se não houver GPU).
    • -vMontagem de um diretório local no contêiner.
    • --dataEspecifique o caminho para o arquivo PDF de entrada.
    • --modelEspecifica o caminho do arquivo do modelo.
  4. Gerar arquivos Markdown
    Quando a execução for concluída, o arquivo de saída Markdown será salvo no diretório ./localworkspace/markdowns/DOCUMENT_NAME diretório. Use o seguinte comando para converter o formato JSONL em Markdown:

    python -m ocrflux.jsonl_to_markdown ./localworkspace
    

Processo de uso

A função principal do OCRFlux é converter PDF ou imagem em Markdown. A seguir estão as etapas específicas da operação:

  1. Preparação do arquivo de entrada
    Coloque o arquivo PDF ou a imagem a ser convertida em /path/to/test_pdf_dir Catálogo. Suporte para formatos PDF comuns e formatos de imagem (por exemplo, PNG, JPG).
  2. Executar a tarefa de conversão
    Use os comandos do Docker acima para iniciar a conversão. O ocRFlux analisa automaticamente o layout do documento, identificando texto, tabelas e conteúdo entre páginas. O processo de conversão pode levar alguns minutos, dependendo do tamanho do arquivo e do desempenho do hardware.
  3. Verificação da saída
    Após a conclusão da conversão, abra o arquivo ./localworkspace/markdowns/DOCUMENT_NAME Catalogue para visualizar os arquivos Markdown gerados. O arquivo mantém a ordem de leitura natural do documento, e as tabelas são renderizadas no formato Markdown ou HTML.
  4. Manuseio de formulários complexos
    O OCRFlux pode lidar com tabelas complexas que contêm rowspan e colspan. O arquivo Markdown resultante estrutura a tabela em um formato claro, adequado para edição direta ou importação para outras ferramentas.
  5. Mesclagem de conteúdo entre páginas
    Para tabelas ou parágrafos que abrangem páginas, o OCRFlux detecta e mescla automaticamente o conteúdo. Por exemplo, as tabelas que abrangem duas páginas são consolidadas em uma tabela completa e os parágrafos são unidos em uma ordem lógica.

Operação da função em destaque

  • Processamento de layout complexoOCRFlux: O OCRFlux suporta a análise de documentos com várias colunas e ilustrações incorporadas. Não é necessária nenhuma configuração adicional em tempo de execução e a ferramenta reconhece automaticamente a estrutura do documento.
  • Reconhecimento altamente precisoNo teste OCRFlux-bench-single, a ferramenta atinge uma pontuação EDS de 0,967, superando o olmOCR-7B (0,872), o Nanonets-OCR-s (0,858) e o MonkeyOCR (0,780).
  • mesclagem entre páginasEsse é um recurso exclusivo do OCRFlux. A ferramenta analisa páginas consecutivas, detecta tabelas ou parágrafos que precisam ser mesclados e gera o conteúdo completo.

advertência

  • Certifique-se de que os arquivos PDF de entrada sejam legíveis e que a resolução recomendada para as digitalizações seja superior a 300 DPI.
  • Se a GPU não estiver disponível, a conversão poderá ser lenta e recomenda-se o uso de uma CPU de alto desempenho.
  • Verifique a integridade do arquivo do modelo; arquivos ausentes podem causar falha na conversão.
  • Visite o repositório do GitHub regularmente para obter a versão mais recente e as instruções de atualização.

cenário do aplicativo

  1. pesquisa acadêmica
    Os pesquisadores podem converter PDFs de artigos acadêmicos em Markdown para facilitar a edição e o compartilhamento. O OCRFlux lida com layouts de várias colunas e tabelas complexas, garantindo uma formatação clara de fórmulas e referências.
  2. Documentação técnica
    Os desenvolvedores podem converter manuais técnicos ou documentação de API de PDF para Markdown para importação em uma base de conhecimento ou blog. Mescle entre páginas para evitar a fragmentação do conteúdo.
  3. Processamento de faturas e formulários
    A equipe financeira pode converter PDFs de faturas ou formulários em Markdown, extraindo informações importantes, como comprador, preço unitário e totais de preço/impostos, para facilitar a análise de dados.
  4. criador de conteúdo
    Os criadores podem converter livros ou anotações digitalizados no formato Markdown Jellybean e organizá-los em arquivos Markdown publicáveis, adequados para uso direto em sites ou documentos.

QA

  1. Quais formatos de arquivo são compatíveis com o OCRFlux?
    Ele suporta PDF e formatos de imagem comuns (por exemplo, PNG, JPG). Os arquivos de entrada precisam ser documentos claros ou digitalizações.
  2. Precisa de hardware de alto desempenho?
    Não. O OCRFlux é baseado em um modelo paramétrico 3B e pode ser executado em uma GPU comum (por exemplo, GTX 3090) ou em uma CPU de alto desempenho.
  3. Como faço para lidar com formulários entre páginas?
    O OCRFlux detecta automaticamente tabelas e parágrafos nas páginas e os mescla para gerar o formato Markdown completo sem intervenção manual.
  4. E se os resultados da conversão forem imprecisos?
    Verifique a resolução do arquivo de entrada (recomenda-se 300 DPI ou mais). Se o problema persistir, registre um problema no GitHub para obter ajuda da comunidade.
  5. Ele precisa estar conectado em rede para funcionar?
    O OCRFlux é executado em um ambiente Docker local e os modelos e dados são processados off-line.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil