Acesso no exterior: www.58jingpai.com
Ctrl + D Marcar este site como favorito

O GOT-OCR2.0 é um modelo de reconhecimento óptico de caracteres (OCR) de código aberto co-proposto pela StepStar, cujo objetivo é impulsionar a tecnologia de OCR em direção ao OCR-2.0 por meio de um modelo unificado de ponta a ponta. O modelo oferece suporte a uma ampla variedade de tarefas de OCR, incluindo reconhecimento de texto simples, reconhecimento de texto formatado, OCR de granulação fina, OCR de várias culturas e OCR de várias páginas. O GOT-OCR2.0 foi projetado com o objetivo de fornecer uma solução versátil e eficiente para uma ampla variedade de cenários complexos de aplicativos de OCR.

Baseado no modelo QWen2 0.5 B. Chamado de OCR 2.0, o modelo de OCR de ponta a ponta com 580 milhões de parâmetros obteve uma pontuação BLEU de 0,972. Endereço de experiência on-line: https://huggingface.co/spaces/ucaslcl/GOT_online

 

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型-1

 

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型-1

 

 

Lista de funções

  • Reconhecimento de texto simples: reconhece o conteúdo de texto simples em imagens.
  • Reconhecimento de texto formatado: reconhece e retém informações de formatação de texto, como tabelas, parágrafos, etc.
  • OCR de granulação fina: Reconheça textos finos em imagens e textos em fundos complexos.
  • OCR com vários cortes: suporta vários cortes de uma imagem e reconhece o texto em cada área cortada.
  • OCR de várias páginas: oferece suporte a OCR de documentos com várias páginas.

 

 

Usando a Ajuda

Processo de instalação

  1. Clone o código do projeto:
    git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
    cd GOT-OCR2.0
    
  2. Criar e ativar um ambiente virtual:
    conda create -n got python=3.10 -y
    conda activate got
    
  3. Instale as dependências do projeto:
    pip install -e .
    
  4. Instalar o Flash-Attention:
    pip install ninja
    pip install flash-attn --no-build-isolation
    

Obtenção de pesos do modelo GOT

Processo de uso

  1. Prepare input data (Preparar dados de entrada): coloque a imagem ou o documento a ser processado por OCR no diretório de entrada especificado.
  2. Execute o modelo de OCR:
    python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
    
  3. View Output (Exibir saída): o texto processado por OCR será salvo no diretório de saída especificado, e os usuários poderão processá-lo posteriormente, conforme necessário.

Funções

  • Reconhecimento de texto simplesReconhece e gera conteúdo de texto comum em imagens como arquivos de texto simples, adequados para tarefas simples de extração de texto.
  • Reconhecimento de texto formatadoPreservação de informações de formatação, como tabelas, parágrafos etc., durante o reconhecimento de texto, para cenários em que a formatação original do documento precisa ser preservada.
  • OCR de granulação finaReconhecimento de texto fino em fundos complexos, adequado para cenas que exigem extração de texto de alta precisão.
  • OCR de várias culturasRecorta a imagem várias vezes e reconhece o texto em cada região recortada, o que é adequado para cenários que exigem o reconhecimento de imagens em várias regiões.
  • OCR de várias páginasSuporte a OCR de documentos de várias páginas, adequado para cenários em que documentos longos ou arquivos PDF de várias páginas são processados.

Com as etapas acima, os usuários podem instalar e usar facilmente o modelo GOT-OCR2.0 para várias tarefas de OCR. O modelo oferece um rico conjunto de módulos funcionais que podem atender às necessidades de OCR em diferentes cenários.

0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil