応答性最適化ガイド
リアルタイム音声アシスタントの待ち時間の問題については、以下のような対策が提案されている:
- プリヒート・ローディング技術プログラム起動時に空テキスト生成を事前に実行し、モデルコンパイルをトリガー(Mシリーズチップ特有のMetal Shader最適化)
- メモリ常駐プログラム: csmオブジェクトをグローバル変数として宣言し、時間のかかるモデルの繰り返し読み込みを回避する。
- ストリーミング生成技術: チャンキングのためにmax_audio_length_ms=2000を設定し、オーディオファイルのアペンドモードでリアルタイム出力する。
- ハードウェアレベルの最適化: M2 Max/Ultra デバイスで MLX を有効にするための mlx.core.set_default_device('gpu') コマンド
モニタリングの提案:mlx.core.memory_usage()を使ってリアルタイムでビデオメモリの占有を検出し、それが70%を超えたら、履歴コンテキスト配列をクリーンアップする必要がある。
この答えは記事から得たものである。csm-mlx: Appleデバイス用csm音声生成モデルについて































