Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

dots.llm1 ist das erste große Sprachmodell mit hybrider Expertenarchitektur, das von Little Red Book zur Verfügung gestellt wird

2025-08-20 221

Merkmale der MoE-Architektur und Open-Source-Bedeutung von dots.llm1

Die Kerninnovation von dots.llm1, dem ersten quelloffenen großen Sprachmodell für Little Red Book, ist das Design der Mixed Expert (MoE) Architektur. Die Architektur enthält 128 Routing-Experten und 2 Shared-Experten, wobei 6 Routing-Experten und 2 Shared-Experten dynamisch ausgewählt werden, um gemeinsam pro Eingabe-Token zu arbeiten. Dieses Design ermöglicht es dem Modell, während der Inferenz nur 14 Milliarden Parameter zu aktivieren, während eine Gesamtparametergröße von 142 Milliarden beibehalten wird, wodurch die Rechenkosten um mehr als 80% reduziert werden.

  • Details zur Architektur: unidirektionaler Decoder Transformer-Struktur, optimierte Datenerfassung mit SwiGLU-Aktivierungsfunktion
  • Kerntechnologie: Die Aufmerksamkeitsschicht kombiniert einen Multi-Head-Aufmerksamkeitsmechanismus mit RMSNorm-Normalisierung zur Verbesserung der numerischen Stabilität.
  • Lastausgleich: Optimieren Sie die Nutzung des Expertennetzwerks mit dynamischen Bias-Terms, um ein Ungleichgewicht der Expertenlast zu vermeiden.

Die Open-Source-Strategie macht dots.llm1 zum ersten kommerziell erhältlichen MoE-Modell einer chinesischen sozialen Plattform und schließt damit die Open-Source-Lücke bei chinesischen MoE-Makromodellen.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch