O Dolphin foi desenvolvido pela ByteDance como uma ferramenta de análise de imagens de documentos de código aberto, com foco no processamento de imagens de documentos complexos, como texto, tabelas, fórmulas e imagens contendo arquivos digitalizados ou PDF. Ele usa a abordagem "analisar primeiro, analisar depois" para obter uma análise eficiente por meio de um processo de dois estágios: primeiro analisa o layout da página do documento para gerar uma sequência de elementos em uma ordem de leitura natural; depois analisa os elementos do documento em paralelo usando âncoras heterogêneas e dicas específicas da tarefa. O Dolphin se destaca em uma ampla gama de tarefas de análise em nível de página e de elemento, equilibrando uma arquitetura leve com desempenho eficiente. A ferramenta foi apresentada na ACL 2025, e os modelos pré-treinados e o código de inferência estão disponíveis para uso dos desenvolvedores. O código e os modelos estão disponíveis em um repositório do GitHub, bem como em uma demonstração on-line.
Lista de funções
- Análise do layout da página: identifica automaticamente texto, tabelas, fórmulas e imagens em um documento e organiza os elementos em uma ordem natural de leitura.
- Parallel Element Parsing: Processe com eficiência diferentes tipos de elementos de documentos usando âncoras heterogêneas e dicas específicas da tarefa.
- Suporte a entrada multimodal: lida com imagens de documentos complexos contendo texto, imagens, tabelas e fórmulas.
- Fornecer modelos pré-treinados: os usuários podem fazer download de modelos pré-treinados e usá-los diretamente para raciocínio ou desenvolvimento secundário.
- Suporte de código aberto: código e documentação detalhados são fornecidos para dar suporte aos desenvolvedores na personalização e ampliação da funcionalidade.
- Plataforma de demonstração on-line: os usuários podem testar o efeito de análise on-line por meio do Demo-Dolphin.
Usando a Ajuda
Processo de instalação
Para usar o Dolphin, os usuários precisam primeiro fazer o download do código e dos modelos pré-treinados de um repositório do GitHub ou do Hugging Face. Abaixo estão as etapas detalhadas de instalação e uso:
- Preparação ambiental
O Dolphin depende de um ambiente Python, sendo recomendado o Python 3.8 ou superior. Os usuários precisam instalar as seguintes dependências:pip install torch torchvision pip install git-lfs
Certifique-se de ter o Git e o Git LFS instalados em seu sistema para fazer download de arquivos de modelo grandes.
- Download de códigos e modelos
O código e os modelos do Dolphin podem ser acessados das seguintes maneiras:- Download de código do GitHub::
git clone https://github.com/bytedance/Dolphin cd Dolphin
- Download de modelos do Hugging Face::
git lfs install git clone https://huggingface.co/ByteDance/Dolphin ./hf_model
Ou use a CLI do Hugging Face:
huggingface-cli download ByteDance/Dolphin --local-dir ./hf_model
- Os arquivos de modelo também podem ser baixados do Baidu Yun ou do Google Drive e colocados no
./checkpoints
pasta.
- Download de código do GitHub::
- Ambiente de configuração
Depois de fazer o download do código, vá para o diretório do projeto e verifique./config/Dolphin.yaml
Arquivo de configuração para garantir que os caminhos e parâmetros do modelo estejam corretos. O arquivo de configuração contém a arquitetura do modelo e as configurações de inferência, que podem ser ajustadas pelo usuário conforme necessário. - Validação do ambiente de tempo de execução
Após a conclusão da instalação, execute o seguinte comando para verificar o ambiente:python -m demo_element.py --help
Se o comando emitir informações de ajuda normalmente, o ambiente foi configurado com êxito.
Uso
O Dolphin oferece uma interface de linha de comando para facilitar o processamento de imagens de documentos únicos. Veja a seguir como usar os principais recursos:
- Processamento de imagens de formulário único
Para analisar uma imagem que contém uma tabela, execute o seguinte comando:python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/table_1.jpeg --element_type table
Esse comando analisa a imagem da tabela, extrai o conteúdo da tabela e gera uma saída estruturada. A saída geralmente está no formato JSON e contém as linhas, colunas e células da tabela.
- Processamento de imagens de fórmulas
Para obter imagens de fórmulas matemáticas, execute:python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula
O Dolphin reconhece o conteúdo das fórmulas e as converte para o formato LaTeX para edição ou renderização posterior.
- Processamento de imagens de parágrafos de texto
Para analisar um parágrafo de texto, execute:python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/para_1.jpg --element_type text
extrairá o conteúdo do texto, preservando a estrutura e a formatação dos parágrafos.
- Demonstração on-line
Se não quiser implantar localmente, você pode visitar a plataforma Demo-Dolphin (link no repositório do GitHub). Faça upload de uma imagem do documento na plataforma, selecione o tipo de elemento (por exemplo, tabela, texto ou fórmula) e veja os resultados da análise. A plataforma é adequada para testes rápidos e não requer configuração do ambiente.
Operação da função em destaque
- Análise do layout da páginaMétodo de leitura: O Dolphin primeiro escaneia toda a imagem do documento, identifica os elementos da página (por exemplo, títulos, parágrafos, tabelas etc.) e os organiza em ordem natural de leitura. Esse método é adequado para o processamento de documentos complexos para evitar que os elementos sejam reconhecidos na ordem errada.
- análise paralelaO Dolphin usa âncoras heterogêneas para atribuir dicas específicas a diferentes tipos de elementos (por exemplo, tabelas, fórmulas), permitindo que vários elementos sejam analisados ao mesmo tempo e melhorando drasticamente a eficiência.
- Arquitetura leveEm comparação com outros modelos de análise de documentos, o modelo do Dolphin é menor e mais rápido para raciocinar, o que o torna adequado para execução em dispositivos com recursos limitados.
advertência
- Certifique-se de que a imagem de entrada esteja nítida; imagens borradas ou de baixa resolução podem afetar a resolução.
- Para documentos grandes, é recomendável processá-los em partes e fazer upload de imagens página por página para aumentar a precisão.
- Se você encontrar problemas de carregamento do modelo, verifique o
./checkpoints
Os arquivos de modelo na pasta estão completos. - Consulte o arquivo README no repositório do GitHub para obter as instruções de configuração e as perguntas frequentes mais recentes.
cenário do aplicativo
- Processamento de documentos de pesquisa acadêmica
Os pesquisadores podem usar o Dolphin para analisar artigos acadêmicos digitalizados, extraindo fórmulas, tabelas e conteúdo textual. Por exemplo, converter documentos em formato PDF em dados estruturados para análise ou arquivamento posterior. - Digitalização de documentos corporativos
As organizações podem usar o Dolphin para converter contratos, relatórios ou faturas digitalizados em papel em formatos digitais editáveis. A extração automática de formulários e textos melhora drasticamente a eficiência da entrada de dados. - Coleta de recursos educacionais
Professores e alunos podem usar o Dolphin para analisar fórmulas e diagramas em materiais didáticos. Por exemplo, converta páginas digitalizadas de um livro didático de matemática no formato LaTeX para ensino on-line ou para fazer anotações. - gerenciamento de arquivos
Os arquivistas podem usar o Dolphin para processar documentos históricos digitalizados, extrair informações importantes e gerar dados estruturados para facilitar o arquivamento e a recuperação.
QA
- Que tipos de elementos de documento são compatíveis com o Dolphin?
O Dolphin suporta a análise de texto, tabelas, fórmulas e imagens. Ele pode lidar com imagens de documentos complexos que contenham esses elementos, como arquivos PDF digitalizados ou fotografias. - Como melhorar a precisão da análise?
Use imagens claras e de alta resolução como entrada. Certifique-se de que o plano de fundo do documento seja simples e evite muitos elementos que causem distração. Para documentos grandes, recomenda-se o processamento página a página. - O Dolphin é gratuito?
Sim, o Dolphin é uma ferramenta de código aberto, lançada sob a licença MIT. Os usuários podem fazer o download do código e dos modelos e usá-los ou modificá-los livremente. - Precisa de um forte suporte de hardware?
A arquitetura leve do Dolphin o torna adequado para ser executado em computadores comuns, mas uma GPU é recomendada para acelerar o raciocínio. A configuração mínima é de 8 GB de RAM e 4 GB de memória de vídeo. - Como faço para obter as atualizações mais recentes?
Siga o repositório do GitHub (https://github.com/bytedance/Dolphin) ou a página do Hugging Face para obter as atualizações mais recentes de código, modelo e documentação.