背景条件
Geminiモデルの推論の深さは、応答速度と品質に直接影響し、異なるビジネスシナリオ(例えば、リアルタイムの会話/深い分析)において動的に調整される必要がある。geminicli2apiは、3つの最適化スキームを提供する:
実施方法
- 迅速対応モード使用
-nothinking
バリアント(例gemini-1.5-flash-nothinking
) カスタマー・サービス・ボットのような低レイテンシ・シナリオのための推論ステップの削減 - 深層分析モデル採用
-maxthinking
バリアント(例gemini-2.5-pro-maxthinking
)学術研究などの複雑なタスクのために推論予算を32,768トークンに増加 - 標準モデルベースモデルへの直接呼び出し(例えば
gemini-1.5-pro
スピードと質量のバランス
操作例
OpenAI互換のAPIコールについては、単にmodel
パラメータでモードを切り替える:client.chat.completions.create(model="gemini-2.5-pro-maxthinking",...)
この答えは記事から得たものである。geminicli2api: Gemini CLIをOpenAI互換APIに変換するプロキシツールについて