Ein vollständiger Leitfaden für die Bereitstellung von Edge-Computing-Umgebungen
Für die ressourcenbeschränkten Eigenschaften von IoT-Geräten ist das MiniMind 25.8M Miniaturmodell die ideale Wahl für Bereitstellungslösungen:
- Modell Slim:1) Durchführen der Modelldestillation (siehe Skript distill.py) 2) Quantisierung der Komprimierung auf 8 Bit (Parameter -quantization) 3) Entfernen nicht benötigter Dekodierungsschichten
- Bereitstellungsmodus:
- Direkte Bereitstellung auf dem Endgerät: Konvertierung der Modelle in das ONNX-Format, Integration der C++-Umgebung
- Edge-Server-Lösung: Erstellung eines leichtgewichtigen API-Dienstes mit serve_openai_api.py
- Hybrider Einsatz: Kernmodell läuft auf Raspberry Pi, Bildverarbeitungsmodule werden auf Cloud-Servern verarbeitet
- Leistungsoptimierung:
- Die Begrenzung von max_tokens=128 reduziert den Rechenaufwand
- Aktivieren Sie den KV-Cache für beschleunigtes Reasoning
- Optimierung der Laufzeit mit dem TinyScript-Compiler
Die quantisierte Modellinferenz wurde mit bis zu 15 Token/Sekunde auf einem Raspberry Pi 4B gemessen, bei einem Speicherbedarf von nur 300 MB.
Diese Antwort stammt aus dem ArtikelMiniMind: 2 Stunden Training von Grund auf 26M Parameter GPT Open Source ToolDie




























