A ferramenta usa a tecnologia SSE (Server-Sent Events) para obter um verdadeiro streaming em tempo real, e cada token é enviado ao cliente imediatamente após a geração. Os dados do teste de desempenho mostram que, ao gerar um texto de 1.000 tokens, o tempo para a chegada do primeiro byte (TTFB) é de apenas 50 ms, o que é 8 vezes mais rápido do que as APIs convencionais. O design da API de streaming consiste em duas camadas: a camada de base retorna de acordo com o padrão OpenAIdelta.contentA camada de reforço é passada através dodelta.reasoning_contentExpondo o processo de raciocínio em tempo real do Gemini. No caso de um bot de diálogo, esse mecanismo reduz o tempo de percepção de espera do usuário em 761 TP3T, ao mesmo tempo em que oferece suporte a um recurso de intervenção de resultado intermediário que permite ao usuário corrigir a direção da geração em tempo real.
Essa resposta foi extraída do artigogeminicli2api: Ferramenta proxy para converter a CLI do Gemini em APIs compatíveis com OpenAIO































