Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Dolphin foi desenvolvido pela ByteDance como uma ferramenta de análise de imagens de documentos de código aberto, com foco no processamento de imagens de documentos complexos, como texto, tabelas, fórmulas e imagens contendo arquivos digitalizados ou PDF. Ele usa a abordagem "analisar primeiro, analisar depois" para obter uma análise eficiente por meio de um processo de dois estágios: primeiro analisa o layout da página do documento para gerar uma sequência de elementos em uma ordem de leitura natural; depois analisa os elementos do documento em paralelo usando âncoras heterogêneas e dicas específicas da tarefa. O Dolphin se destaca em uma ampla gama de tarefas de análise em nível de página e de elemento, equilibrando uma arquitetura leve com desempenho eficiente. A ferramenta foi apresentada na ACL 2025, e os modelos pré-treinados e o código de inferência estão disponíveis para uso dos desenvolvedores. O código e os modelos estão disponíveis em um repositório do GitHub, bem como em uma demonstração on-line.

Dolphin-1

 

Lista de funções

  • Análise do layout da página: identifica automaticamente texto, tabelas, fórmulas e imagens em um documento e organiza os elementos em uma ordem natural de leitura.
  • Parallel Element Parsing: Processe com eficiência diferentes tipos de elementos de documentos usando âncoras heterogêneas e dicas específicas da tarefa.
  • Suporte a entrada multimodal: lida com imagens de documentos complexos contendo texto, imagens, tabelas e fórmulas.
  • Fornecer modelos pré-treinados: os usuários podem fazer download de modelos pré-treinados e usá-los diretamente para raciocínio ou desenvolvimento secundário.
  • Suporte de código aberto: código e documentação detalhados são fornecidos para dar suporte aos desenvolvedores na personalização e ampliação da funcionalidade.
  • Plataforma de demonstração on-line: os usuários podem testar o efeito de análise on-line por meio do Demo-Dolphin.

 

Usando a Ajuda

Processo de instalação

Para usar o Dolphin, os usuários precisam primeiro fazer o download do código e dos modelos pré-treinados de um repositório do GitHub ou do Hugging Face. Abaixo estão as etapas detalhadas de instalação e uso:

  1. Preparação ambiental
    O Dolphin depende de um ambiente Python, sendo recomendado o Python 3.8 ou superior. Os usuários precisam instalar as seguintes dependências:

    pip install torch torchvision
    pip install git-lfs
    

    Certifique-se de ter o Git e o Git LFS instalados em seu sistema para fazer download de arquivos de modelo grandes.

  2. Download de códigos e modelos
    O código e os modelos do Dolphin podem ser acessados das seguintes maneiras:

    • Download de código do GitHub::
      git clone https://github.com/bytedance/Dolphin
      cd Dolphin
      
    • Download de modelos do Hugging Face::
      git lfs install
      git clone https://huggingface.co/ByteDance/Dolphin ./hf_model
      

      Ou use a CLI do Hugging Face:

      huggingface-cli download ByteDance/Dolphin --local-dir ./hf_model
      
    • Os arquivos de modelo também podem ser baixados do Baidu Yun ou do Google Drive e colocados no ./checkpoints pasta.
  3. Ambiente de configuração
    Depois de fazer o download do código, vá para o diretório do projeto e verifique ./config/Dolphin.yaml Arquivo de configuração para garantir que os caminhos e parâmetros do modelo estejam corretos. O arquivo de configuração contém a arquitetura do modelo e as configurações de inferência, que podem ser ajustadas pelo usuário conforme necessário.
  4. Validação do ambiente de tempo de execução
    Após a conclusão da instalação, execute o seguinte comando para verificar o ambiente:

    python -m demo_element.py --help
    

    Se o comando emitir informações de ajuda normalmente, o ambiente foi configurado com êxito.

Uso

O Dolphin oferece uma interface de linha de comando para facilitar o processamento de imagens de documentos únicos. Veja a seguir como usar os principais recursos:

  1. Processamento de imagens de formulário único
    Para analisar uma imagem que contém uma tabela, execute o seguinte comando:

    python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/table_1.jpeg --element_type table
    

    Esse comando analisa a imagem da tabela, extrai o conteúdo da tabela e gera uma saída estruturada. A saída geralmente está no formato JSON e contém as linhas, colunas e células da tabela.

  2. Processamento de imagens de fórmulas
    Para obter imagens de fórmulas matemáticas, execute:

    python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula
    

    O Dolphin reconhece o conteúdo das fórmulas e as converte para o formato LaTeX para edição ou renderização posterior.

  3. Processamento de imagens de parágrafos de texto
    Para analisar um parágrafo de texto, execute:

    python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/para_1.jpg --element_type text
    

    extrairá o conteúdo do texto, preservando a estrutura e a formatação dos parágrafos.

  4. Demonstração on-line
    Se não quiser implantar localmente, você pode visitar a plataforma Demo-Dolphin (link no repositório do GitHub). Faça upload de uma imagem do documento na plataforma, selecione o tipo de elemento (por exemplo, tabela, texto ou fórmula) e veja os resultados da análise. A plataforma é adequada para testes rápidos e não requer configuração do ambiente.

Operação da função em destaque

  • Análise do layout da páginaMétodo de leitura: O Dolphin primeiro escaneia toda a imagem do documento, identifica os elementos da página (por exemplo, títulos, parágrafos, tabelas etc.) e os organiza em ordem natural de leitura. Esse método é adequado para o processamento de documentos complexos para evitar que os elementos sejam reconhecidos na ordem errada.
  • análise paralelaO Dolphin usa âncoras heterogêneas para atribuir dicas específicas a diferentes tipos de elementos (por exemplo, tabelas, fórmulas), permitindo que vários elementos sejam analisados ao mesmo tempo e melhorando drasticamente a eficiência.
  • Arquitetura leveEm comparação com outros modelos de análise de documentos, o modelo do Dolphin é menor e mais rápido para raciocinar, o que o torna adequado para execução em dispositivos com recursos limitados.

advertência

  • Certifique-se de que a imagem de entrada esteja nítida; imagens borradas ou de baixa resolução podem afetar a resolução.
  • Para documentos grandes, é recomendável processá-los em partes e fazer upload de imagens página por página para aumentar a precisão.
  • Se você encontrar problemas de carregamento do modelo, verifique o ./checkpoints Os arquivos de modelo na pasta estão completos.
  • Consulte o arquivo README no repositório do GitHub para obter as instruções de configuração e as perguntas frequentes mais recentes.

 

cenário do aplicativo

  1. Processamento de documentos de pesquisa acadêmica
    Os pesquisadores podem usar o Dolphin para analisar artigos acadêmicos digitalizados, extraindo fórmulas, tabelas e conteúdo textual. Por exemplo, converter documentos em formato PDF em dados estruturados para análise ou arquivamento posterior.
  2. Digitalização de documentos corporativos
    As organizações podem usar o Dolphin para converter contratos, relatórios ou faturas digitalizados em papel em formatos digitais editáveis. A extração automática de formulários e textos melhora drasticamente a eficiência da entrada de dados.
  3. Coleta de recursos educacionais
    Professores e alunos podem usar o Dolphin para analisar fórmulas e diagramas em materiais didáticos. Por exemplo, converta páginas digitalizadas de um livro didático de matemática no formato LaTeX para ensino on-line ou para fazer anotações.
  4. gerenciamento de arquivos
    Os arquivistas podem usar o Dolphin para processar documentos históricos digitalizados, extrair informações importantes e gerar dados estruturados para facilitar o arquivamento e a recuperação.

 

QA

  1. Que tipos de elementos de documento são compatíveis com o Dolphin?
    O Dolphin suporta a análise de texto, tabelas, fórmulas e imagens. Ele pode lidar com imagens de documentos complexos que contenham esses elementos, como arquivos PDF digitalizados ou fotografias.
  2. Como melhorar a precisão da análise?
    Use imagens claras e de alta resolução como entrada. Certifique-se de que o plano de fundo do documento seja simples e evite muitos elementos que causem distração. Para documentos grandes, recomenda-se o processamento página a página.
  3. O Dolphin é gratuito?
    Sim, o Dolphin é uma ferramenta de código aberto, lançada sob a licença MIT. Os usuários podem fazer o download do código e dos modelos e usá-los ou modificá-los livremente.
  4. Precisa de um forte suporte de hardware?
    A arquitetura leve do Dolphin o torna adequado para ser executado em computadores comuns, mas uma GPU é recomendada para acelerar o raciocínio. A configuração mínima é de 8 GB de RAM e 4 GB de memória de vídeo.
  5. Como faço para obter as atualizações mais recentes?
    Siga o repositório do GitHub (https://github.com/bytedance/Dolphin) ou a página do Hugging Face para obter as atualizações mais recentes de código, modelo e documentação.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil