A arquitetura da tecnologia principal do ScreenCoder baseia-se em um sistema modular de inteligência múltipla, que divide o processo de conversão em três fases especializadas: o reconhecimento visual (Grounding Agent) é responsável pela análise dos elementos da interface do usuário, o planejamento do layout (Planning Agent) organiza a estrutura hierárquica da página e a geração de código (Generation Agent) produz HTML/CSS em conformidade com os padrões. Essa clara divisão de trabalho garante que os resultados da conversão mantenham a precisão do design e tenham uma estrutura de código de alta qualidade. O sistema suporta vários modelos de geração, como Doubao, Qwen, GPT e Gemini, que podem ser selecionados com flexibilidade pelos usuários de acordo com as necessidades reais.
Essa resposta foi extraída do artigoScreenCoder: uma ferramenta para converter capturas de tela da interface do usuário em código HTML/CSS editávelO































