MoEアーキテクチャの概要
Mixture of Expertsアーキテクチャは、dots.llm1がモデルの性能と計算効率のバランスをとるために使用する、特別なニューラルネットワーク設計の一種です。
建築上の利点
- 計算効率モデル全体としては1420億のパラメータを持つが、推論中にアクティブになるのは140億のパラメータのみであり、計算リソースの消費を大幅に削減することができる。
- ダイナミックルーティング各入力トークンに対して、6人のルーティング・エキスパートと2人のシェアリング・エキスパートが動的に選択され、合計8人のエキスパート・ネットワークが活性化される。
- 負荷分散一部のエキスパートに過負荷がかからないよう、動的なバイアス条件によりエキスパートネットワークの利用を最適化する。
- パフォーマンス向上SwiGLU活性化関数と多頭注意メカニズムを組み合わせることで、モデルの表現力が向上する。
技術的詳細
このモデルは単方向デコーダTransformerアーキテクチャを採用し、従来のフィードフォワードネットワークを128個のルーティングエキスパートと2個の共有エキスパートを含むMoE構造に置き換えた。アテンション層はRMSNorm正規化と組み合わせたマルチヘッドアテンションメカニズムを用い、強力な表現力を維持し、数値的安定性を向上させている。
この答えは記事から得たものである。dots.llm1: リトル・レッド・ブックがオープンソース化した最初のMoE大規模言語モデルについて