ディープリコールは、モジュラー設計とコンポーネントが連動する3層アーキテクチャを採用している:
- メモリサービス層::
- コア・コンポーネント:ベクター・データベース(FAISS/Pineconeなど)
- 機能:ユーザーとのインタラクションのベクトル化された記憶の保存と検索、類似性クエリーと時空間相関分析のサポート
- 推論サービス層::
- コアコンポーネント:GPUで高速化されたモデル推論エンジン
- 機能:取得したコンテキストと連動してLLM生成を実行し、異なるサイズのモデルの動的ロードをサポート(7B/70Bパラメータ)
- コーディネーター層::
- コア・コンポーネント:自動拡張コントローラー
- 機能:リアルタイムの負荷監視、弾力的なリソース・スケジューリング(バースト的なトラフィックが発生した場合にGPUインスタンスを自動的に増やすなど)
3つのレイヤーはgRPCを通じて効率的に通信し、コーディネーターはコンセンサス・アルゴリズムを使って分散一貫性を確保する。
この答えは記事から得たものである。Deep Recall:大規模モデルのためのエンタープライズクラスのメモリフレームワークを提供するオープンソースツールについて































