MoEアーキテクチャの特徴とdots.llm1のオープンソースとしての意義
dots.llm1は、リトル・レッド・ブック初のオープンソース大規模言語モデルであり、その革新的なコアは、混合エキスパート(MoE)アーキテクチャの設計にある。このアーキテクチャには128のルーティングエキスパートと2つの共有エキスパートが含まれ、入力トークンごとに6つのルーティングエキスパートと2つの共有エキスパートが動的に選択されて一緒に処理されます。この設計により、総パラメータサイズ1420億を維持したまま、推論時に140億のパラメータのみをアクティブにすることができ、計算コストを80%以上削減することができる。
- アーキテクチャの詳細:一方向デコーダ トランスフォーマ構造、SwiGLU活性化関数を用いた最適化されたデータキャプチャ
- コアテクノロジー:アテンションレイヤーは、マルチヘッドアテンションメカニズムとRMSNorm正規化を組み合わせ、数値安定性を向上させる。
- ロードバランシング: エキスパートの負荷の不均衡を避けるために、動的なバイアス条件によりエキスパートネットワークの使用を最適化します。
オープンソース戦略により、dots.llm1は中国のソーシャルプラットフォームから初めて市販されたMoEモデルとなり、中国のMoEマクロモデルのオープンソースギャップを埋めた。
この答えは記事から得たものである。dots.llm1: リトル・レッド・ブックがオープンソース化した最初のMoE大規模言語モデルについて