Ao trabalhar com diagramas/esquemas (usando o--mode figureparâmetros), o VOP gera análises inteligentes em várias camadas:
1. identificação de elementos básicos
- Julgamento do tipo de gráficoDiferenciar automaticamente gráficos de linhas, gráficos de barras, fluxogramas, etc.
- Extração de pontos-chave de dadosCaptura de intervalos de valores de eixos, descrições de legendas, etc.
2. descrição semântica
Exemplo de saída típica:
- "Mostrando um gráfico de linha da mudança de temperatura global de 2010 a 2020, com três linhas de tendência para diferentes regiões."
- "Diagrama esquemático da mitose celular rotulado com os quatro estágios de prófase, metáfase, metáfase e metáfase."
3. dados estruturados
A saída JSON contém os seguintes campos:{
"type": "scatter_plot",
"x-axis": {"label": "Year", "range": [2000,2020]},
"series": [{"name": "Tokyo", "data": [...]}]
"description": "..."
}
Esse recurso é particularmente adequado para a criação de conjuntos de dados de treinamento de IA, como a transformação de diagramas esquemáticos de livros didáticos de biologia em dados anotados.
Essa resposta foi extraída do artigoVOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticasO
































