Das Tool nutzt die SSE-Technologie (Server-Sent Events), um echtes Echtzeit-Streaming zu erreichen, und jedes Token wird unmittelbar nach der Generierung an den Client übertragen. Leistungstests zeigen, dass bei der Generierung eines Textes von 1000 Token die Zeit bis zum Eintreffen des ersten Bytes (TTFB) nur 50 ms beträgt, was achtmal schneller ist als bei herkömmlichen APIs. Das Design der Streaming-API besteht aus zwei Schichten: Die Basisschicht entspricht dem OpenAI-Standarddelta.inhaltDie Bewehrungslage wird durch diedelta.reasoning_contentOffenlegung des Echtzeit-Schlussfolgernden Prozesses von Gemini. Im Fall eines Dialog-Bots reduziert dieser Mechanismus die Wartezeit des Benutzers um 761 TP3T und unterstützt gleichzeitig eine Interventionsfunktion für Zwischenergebnisse, die es dem Benutzer ermöglicht, die Generierungsrichtung in Echtzeit zu korrigieren.
Diese Antwort stammt aus dem Artikelgeminicli2api: Proxy-Tool zur Umwandlung von Gemini CLI in OpenAI-kompatible APIsDie































