Leitfaden zur Optimierung der Reaktionsfähigkeit
Die folgenden Maßnahmen werden vorgeschlagen, um das Latenzproblem von Echtzeit-Sprachassistenten zu lösen:
- Vorwärmende LadetechnikLeertextgenerierung beim Programmstart vorwegnehmen, um die Modellkompilierung auszulösen (Metal Shader-Optimierung speziell für Chips der M-Serie)
- Speicherresidentes Programmcsm-Objekte als globale Variablen deklarieren, um zeitaufwändiges wiederholtes Laden von Modellen zu vermeiden
- Techniken der Streaming-Erzeugungmax_audio_length_ms=2000 für Chunking, mit Echtzeit-Ausgabe im Append-Modus der Audiodatei einstellen.
- Optimierung auf Hardware-Ebenemlx.core.set_default_device('gpu') Befehl zur Aktivierung von MLX auf M2 Max/Ultra Geräten
Überwachungsvorschlag: Verwenden Sie mlx.core.memory_usage(), um die Belegung des Videospeichers in Echtzeit zu ermitteln. Wenn sie 70% überschreitet, müssen Sie das History Context Array bereinigen.
Diese Antwort stammt aus dem Artikelcsm-mlx: csm-Sprachgenerierungsmodell für Apple-GeräteDie































