Langroidは2つのコアな最適化メカニズムを提供する:
- レスポンス・キャッシュLLMのレスポンスをRedisやMomentoに保存し、同じ内容の問い合わせが繰り返されないようにする。
- ツールコールLLMが計算やクエリーを実行する必要がある場合、それは
ToolMessage
トークンを消費する代わりにローカル関数をトリガーする
例えば数学の問題を扱うとき、インテリジェンスはLLMに計算をさせるのではなく、Pythonの計算ツールを優先的に呼び出す。組み合わせsingle_round
およびその他のタスク制御パラメータを使用することで、不要なAPIコールを効果的に削減できます。テストによると、これらの最適化により、30%-50%の運用コストが削減されています。
この答えは記事から得たものである。Langroid:マルチインテリジェントボディプログラミングによる大規模言語モデルの容易なナビゲーションについて