革新的なアテンション・アーキテクチャの説明
KBLaMの革新的な長方形アテンション(RA)メカニズムは、キーと値の次元を切り離すことで、知識ベクトルを別々のウェイト行列に格納する。従来の自己アテンション・メカニズムとは異なり、知識キー(K)次元を値(V)次元よりもはるかに大きくできる設計(実験では2048:256の比率を使用)になっており、「狭く深い」知識記憶構造を作り出している。テクニカル・ホワイトペーパーでは、このアーキテクチャにより、768次元の隠れ状態を維持しながら、クエリ応答待ち時間を50ms未満(A100環境)に制御し、100万件以上の知識レコードの高速検索をサポートできるモデルを示している。このメカニズムは、専門知識の正確な検索を必要とする化学分子の特性予測のようなタスクにおいて、標準的なTransformerよりも191 TP3Tの方が注意精度を向上させることが示されている。
この答えは記事から得たものである。KBLaM:大規模モデルに外部知識を埋め込むためのオープンソース拡張ツールについて































