Portkeyは、AIサービススケジューリングの分野で画期的なイノベーションを達成した。 その負荷分散システムは、動的な重み配分アルゴリズムを採用し、各モデルノードの応答待ち時間、エラー率、クォータマージンをリアルタイムで監視する。技術的な実装は、3つの主要モジュールで構成されている。モデルのパフォーマンス指標に基づいてリクエスト分配比率を自動的に調整するトラフィック分配器、5秒ごとにノードの状態を調査するヘルスチェッカー、タイムアウトやAPIエラーが発生した場合にバックアップチャネルを即座に有効にするフェイルオーバーエンジンである。
実際のテストデータによると、このメカニズムにより、サービスの中断時間を500ミリ秒以内に短縮し、同じハードウェア条件下でシステムのスループットを3倍向上させることができる。ある電子商取引企業の例では、昨年のダブル11のプロモーション期間中、同社のインテリジェント・カスタマー・サービス・システムは、1秒間に1,200回というピーク時の問い合わせをポートキーを通じて行い、ダウンタイムはゼロでした。この安定性は、主にマルチクラウドモデルのリソースに対するプラットフォームのインテリジェントなスケジューリング機能によるもので、これは自作システムでは実現が難しい技術的優位性である。
この答えは記事から得たものである。Portkey:複数のAIモデルを接続し、アプリケーションを管理するための開発ツールについて































