O Gemini-CLI-UI realiza o processamento composto de imagens, códigos e textos, integrando o recurso multimodal do Gemini 2.5 Pro. Sua tecnologia principal está no estabelecimento de um canal de transmissão de codificação de imagem baseado em Base64 e no desenvolvimento de um analisador de linguagem de marcação visual dedicado. Os testes mostram que o sistema pode reconhecer com precisão as capturas de tela que contêm códigos, e a precisão da conversão de OCR chega a 92%.
Os cenários típicos de aplicação incluem: conversão de diagramas de arquitetura no quadro branco diretamente em código PlantUML, tirando uma foto do quadro branco com um telefone celular; upload de capturas de tela de registros de erros para aconselhamento de diagnóstico; e modificação interativa de diagramas UML gerados por IA. Esses recursos permitem que os desenvolvedores permaneçam produtivos em cenários móveis com um ganho de eficiência de cerca de 55% em relação às interações somente com texto.
Para a implementação subjacente, o sistema adota uma arquitetura de processamento em camadas: o front-end é responsável pelo pré-processamento de mídia e o back-end chama a API multimodal do Gemini para manter o estado de interação via WebSocket. A equipe técnica otimizou especialmente o algoritmo de compactação de imagem para garantir a usabilidade na rede 2G.
Essa resposta foi extraída do artigoGemini-CLI-UI: fornece uma interface web intuitiva para a CLI do Gemini.O
































