Konfigurierbare Engine zur Spracherzeugung
csm-mlx ermöglicht eine programmierbare Steuerung des Sprachstils, indem wichtige Sampling-Parameter geöffnet werden. Der Temperaturparameter (temp) regelt die Stochastizität der Sprache mit Werten zwischen 0,1 und 1,0: niedrigere Werte (0,3) erzeugen eine stabile und konservative Sprecherkadenz, während höhere Werte (0,8) eine emotionale Improvisation erzeugen. Der Parameter für die Mindestwahrscheinlichkeit (min_p) steuert den Schwellenwert für das Screening von Kandidaten, wodurch die Erzeugung inkohärenter Sprünge vermieden wird.
In der Praxis kann der Entwickler die Funktion make_sampler verwenden, um diese Parameter zu kombinieren: Für Bildungsanwendungen wird die Konfiguration temp = 0,4/min_p = 0,05 empfohlen, um die Genauigkeit zu gewährleisten, für Unterhaltungsszenen temp = 0,7/min_p = 0,2, um die Leistung zu verbessern. Das System bietet auch max_audio_length_ms (500-10000 Millisekunden), um die Generierungszeit zu begrenzen, damit der Speicher nicht überläuft. Tests haben gezeigt, dass die richtige Einstellung der Parameter die Natürlichkeit der Sprache (MOS-Score) von 3,2 auf 4,1 (auf einer 5-Punkte-Skala) verbessert.
Diese Antwort stammt aus dem Artikelcsm-mlx: csm-Sprachgenerierungsmodell für Apple-GeräteDie































