该工具采用SSE(Server-Sent Events)技术实现真正的实时流式传输,每个token生成后立即推送至客户端。性能测试数据显示,在生成1000token的文本时,首字节到达时间(TTFB)仅50ms,比常规API快8倍。流式API设计包含两个层次:基础层按照OpenAI标准返回delta.content,增强层通过delta.reasoning_content暴露Gemini的实时推理过程。某对话机器人案例中,这种机制使用户等待感知时间减少76%,同时支持中间结果干预功能,允许用户实时修正生成方向。
本答案来源于文章《geminicli2api:将 Gemini CLI 转为 OpenAI 兼容 API 的代理工具》