Posição atual:fig. início » Ferramentas profissionais de IA

Dolphin

2025-05-22

Ferramentas profissionais de IA/extração de dados

3.3 K 6

fazer uma cópia de

Link diretoLinks alternativosVisualização móvel

O Dolphin foi desenvolvido pela ByteDance como uma ferramenta de análise de imagens de documentos de código aberto, com foco no processamento de imagens de documentos complexos, como texto, tabelas, fórmulas e imagens contendo arquivos digitalizados ou PDF. Ele usa a abordagem "analisar primeiro, analisar depois" para obter uma análise eficiente por meio de um processo de dois estágios: primeiro analisa o layout da página do documento para gerar uma sequência de elementos em uma ordem de leitura natural; depois analisa os elementos do documento em paralelo usando âncoras heterogêneas e dicas específicas da tarefa. O Dolphin se destaca em uma ampla gama de tarefas de análise em nível de página e de elemento, equilibrando uma arquitetura leve com desempenho eficiente. A ferramenta foi apresentada na ACL 2025, e os modelos pré-treinados e o código de inferência estão disponíveis para uso dos desenvolvedores. O código e os modelos estão disponíveis em um repositório do GitHub, bem como em uma demonstração on-line.

Dolphin-1

Lista de funções

Análise do layout da página: identifica automaticamente texto, tabelas, fórmulas e imagens em um documento e organiza os elementos em uma ordem natural de leitura.
Parallel Element Parsing: Processe com eficiência diferentes tipos de elementos de documentos usando âncoras heterogêneas e dicas específicas da tarefa.
Suporte a entrada multimodal: lida com imagens de documentos complexos contendo texto, imagens, tabelas e fórmulas.
Fornecer modelos pré-treinados: os usuários podem fazer download de modelos pré-treinados e usá-los diretamente para raciocínio ou desenvolvimento secundário.
Suporte de código aberto: código e documentação detalhados são fornecidos para dar suporte aos desenvolvedores na personalização e ampliação da funcionalidade.
Plataforma de demonstração on-line: os usuários podem testar o efeito de análise on-line por meio do Demo-Dolphin.

Usando a Ajuda

Processo de instalação

Para usar o Dolphin, os usuários precisam primeiro fazer o download do código e dos modelos pré-treinados de um repositório do GitHub ou do Hugging Face. Abaixo estão as etapas detalhadas de instalação e uso:

Preparação ambiental
O Dolphin depende de um ambiente Python, sendo recomendado o Python 3.8 ou superior. Os usuários precisam instalar as seguintes dependências:
```
pip install torch torchvision
pip install git-lfs
```
Certifique-se de ter o Git e o Git LFS instalados em seu sistema para fazer download de arquivos de modelo grandes.
Download de códigos e modelos
O código e os modelos do Dolphin podem ser acessados das seguintes maneiras:
- Download de código do GitHub：
```
git clone https://github.com/bytedance/Dolphin
cd Dolphin
```
- Download de modelos do Hugging Face：
```
git lfs install
git clone https://huggingface.co/ByteDance/Dolphin ./hf_model
```
  Ou use a CLI do Hugging Face:
```
huggingface-cli download ByteDance/Dolphin --local-dir ./hf_model
```
- Os arquivos de modelo também podem ser baixados do Baidu Yun ou do Google Drive e colocados no ./checkpoints pasta.
Ambiente de configuração
Depois de fazer o download do código, vá para o diretório do projeto e verifique ./config/Dolphin.yaml Arquivo de configuração para garantir que os caminhos e parâmetros do modelo estejam corretos. O arquivo de configuração contém a arquitetura do modelo e as configurações de inferência, que podem ser ajustadas pelo usuário conforme necessário.
Validação do ambiente de tempo de execução
Após a conclusão da instalação, execute o seguinte comando para verificar o ambiente:
```
python -m demo_element.py --help
```
Se o comando emitir informações de ajuda normalmente, o ambiente foi configurado com êxito.

Uso

O Dolphin oferece uma interface de linha de comando para facilitar o processamento de imagens de documentos únicos. Veja a seguir como usar os principais recursos:

Processamento de imagens de formulário único
Para analisar uma imagem que contém uma tabela, execute o seguinte comando:
```
python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/table_1.jpeg --element_type table
```
Esse comando analisa a imagem da tabela, extrai o conteúdo da tabela e gera uma saída estruturada. A saída geralmente está no formato JSON e contém as linhas, colunas e células da tabela.
Processamento de imagens de fórmulas
Para obter imagens de fórmulas matemáticas, execute:
```
python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula
```
O Dolphin reconhece o conteúdo das fórmulas e as converte para o formato LaTeX para edição ou renderização posterior.
Processamento de imagens de parágrafos de texto
Para analisar um parágrafo de texto, execute:
```
python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/para_1.jpg --element_type text
```
extrairá o conteúdo do texto, preservando a estrutura e a formatação dos parágrafos.
Demonstração on-line
Se não quiser implantar localmente, você pode visitar a plataforma Demo-Dolphin (link no repositório do GitHub). Faça upload de uma imagem do documento na plataforma, selecione o tipo de elemento (por exemplo, tabela, texto ou fórmula) e veja os resultados da análise. A plataforma é adequada para testes rápidos e não requer configuração do ambiente.

Operação da função em destaque

Análise do layout da páginaMétodo de leitura: O Dolphin primeiro escaneia toda a imagem do documento, identifica os elementos da página (por exemplo, títulos, parágrafos, tabelas etc.) e os organiza em ordem natural de leitura. Esse método é adequado para o processamento de documentos complexos para evitar que os elementos sejam reconhecidos na ordem errada.
análise paralelaO Dolphin usa âncoras heterogêneas para atribuir dicas específicas a diferentes tipos de elementos (por exemplo, tabelas, fórmulas), permitindo que vários elementos sejam analisados ao mesmo tempo e melhorando drasticamente a eficiência.
Arquitetura leveEm comparação com outros modelos de análise de documentos, o modelo do Dolphin é menor e mais rápido para raciocinar, o que o torna adequado para execução em dispositivos com recursos limitados.

advertência

Certifique-se de que a imagem de entrada esteja nítida; imagens borradas ou de baixa resolução podem afetar a resolução.
Para documentos grandes, é recomendável processá-los em partes e fazer upload de imagens página por página para aumentar a precisão.
Se você encontrar problemas de carregamento do modelo, verifique o ./checkpoints Os arquivos de modelo na pasta estão completos.
Consulte o arquivo README no repositório do GitHub para obter as instruções de configuração e as perguntas frequentes mais recentes.

cenário do aplicativo

Processamento de documentos de pesquisa acadêmica
Os pesquisadores podem usar o Dolphin para analisar artigos acadêmicos digitalizados, extraindo fórmulas, tabelas e conteúdo textual. Por exemplo, converter documentos em formato PDF em dados estruturados para análise ou arquivamento posterior.
Digitalização de documentos corporativos
As organizações podem usar o Dolphin para converter contratos, relatórios ou faturas digitalizados em papel em formatos digitais editáveis. A extração automática de formulários e textos melhora drasticamente a eficiência da entrada de dados.
Coleta de recursos educacionais
Professores e alunos podem usar o Dolphin para analisar fórmulas e diagramas em materiais didáticos. Por exemplo, converta páginas digitalizadas de um livro didático de matemática no formato LaTeX para ensino on-line ou para fazer anotações.
gerenciamento de arquivos
Os arquivistas podem usar o Dolphin para processar documentos históricos digitalizados, extrair informações importantes e gerar dados estruturados para facilitar o arquivamento e a recuperação.

QA

Que tipos de elementos de documento são compatíveis com o Dolphin?
O Dolphin suporta a análise de texto, tabelas, fórmulas e imagens. Ele pode lidar com imagens de documentos complexos que contenham esses elementos, como arquivos PDF digitalizados ou fotografias.
Como melhorar a precisão da análise?
Use imagens claras e de alta resolução como entrada. Certifique-se de que o plano de fundo do documento seja simples e evite muitos elementos que causem distração. Para documentos grandes, recomenda-se o processamento página a página.
O Dolphin é gratuito?
Sim, o Dolphin é uma ferramenta de código aberto, lançada sob a licença MIT. Os usuários podem fazer o download do código e dos modelos e usá-los ou modificá-los livremente.
Precisa de um forte suporte de hardware?
A arquitetura leve do Dolphin o torna adequado para ser executado em computadores comuns, mas uma GPU é recomendada para acelerar o raciocínio. A configuração mínima é de 8 GB de RAM e 4 GB de memória de vídeo.
Como faço para obter as atualizações mais recentes?
Siga o repositório do GitHub (https://github.com/bytedance/Dolphin) ou a página do Hugging Face para obter as atualizações mais recentes de código, modelo e documentação.

Ferramentas de produtividade de IA » Dolphin Publicado em 2025-05-22, se você achar que o URL está desatualizado ou inacessível, entre em contato conosco.

0Marcado

0Recomendado

Dolphin

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

Operação da função em destaque

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Seleção → Redação → Publicação, totalmente automatizada!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Dolphin

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

Operação da função em destaque

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Seleção → Redação → Publicação, totalmente automatizada!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida