Esquema de controle de interface sinérgica multimodal
Modelos grandes (por exemplo, GPT-4V) têm problemas como posicionamento impreciso da operação e etapas ausentes ao lidar apenas com capturas de tela da interface, o que o OmniParser melhora com a seguinte arquitetura:
- Camada intermediária estruturada:Converta a captura de tela em uma árvore JSON com coordenadas, tipo e estado do elemento
- Pipelines de vários modelos:Modelo de detecção → modelo de descrição → processamento hierárquico para geração de comandos de controle
- Sandbox do Windows 11:Fornecer um ambiente operacional real para verificar a viabilidade do comando
Implementação das recomendações:
- Certifique-se de que os três submódulos de ponderação (detect/caption/florence) sejam baixados em sua totalidade durante a instalação
- Teste a análise no Gradio Demo antes de fazer a interface com o LLM
- Adição de filtragem de limiar de confiança aos principais elementos operacionais
A solução melhora a precisão da geração de comandos de operação de 63% para 89%, o que é especialmente eficaz para controles complexos, como menus suspensos.
Essa resposta foi extraída do artigoOmniParser: capturas de tela da interface do usuário analisadas em elementos estruturados para facilitar a compreensão e a manipulação de modelos grandesO































