Hardware-Anforderungen und technologische Kompromisse
Die hohe Hardware-Schwelle von Grok-2 ergibt sich aus drei technischen Hauptmerkmalen: 1) die 128-Experten-MoE-Architektur muss 286 Milliarden aktive Parameter aufrechterhalten; 2) die 8-Wege-Tensor-Parallelität erfordert ultraschnelle NVLink-Verbindungen; und 3) die FP8-Quantisierung muss von Computerkarten der nächsten Generation wie der H100 unterstützt werden.
Für Entwickler mit begrenzten Ressourcen können die Modelle auf diese Weise erlebt werden:
- Cloud-Service-LösungenLambda Labs bietet stundenweise Mietinstanzen von vorinstallierten Umgebungen an (~$12.5/Stunde), um eine schnelle Freigabe von Ressourcen zu unterstützen.
- Quantitative LiteDie grok-2-mini 4bit Version aus der Community läuft auf einer einzelnen 24GB GPU und behält die Kapazität von 85%.
- API-ZugangxAI erwartet, dass eine offizielle API im Jahr 2024Q4 auf den Markt kommt, und die Preisstrategie könnte auf 1/3 des Preises von GPT-4 basieren.
Kompromisse bei der Leistung: 1) Das Ausschalten einiger Experten (-expert-dropout 0.3) kann die Speichernutzung von 40% reduzieren; 2) Die Verwendung eines optimierten Inferenz-Frameworks wie vLLM kann den 20%-Durchsatz verbessern; 3) Für Szenarien mit Stapelgröße = 1 können Sie versuchen, die --quantization fp4 Modus.
Diese Antwort stammt aus dem ArtikelGrok-2: xAIs Open Source Hybrid Expert Large Language ModelDie
































