このプロジェクトは、主流のAIサービスの柔軟な切り替えをサポートするモジュール設計を採用している:
言語モデルのサポート
- デフォルトプログラムChatGLM ラージ言語モデル
- 代替オプションアリ・ベイリアン、ディープシークなど国内主力モデル
- 構成config.yamlを修正することによって
model_providerパラメータ切り替え
音声合成(TTS)プログラム
- 基本プログラムMicrosoft EdgeTTS (デフォルトで有効)
- 強化プログラムボルケーノ・エンジンTTSによる自然な音声出力
- 技術依存オーディオ処理機能を確保するために、プリインストールされているlibopusとffmpegコンポーネントが必要です。
実際の導入では、ハードウェアの性能やネットワークの状況に応じて、適切な組み合わせを選択することができます。例えば、DeepSeek+EdgeTTSの組み合わせは、高いリアルタイム性が要求されるシーンに推奨され、ChatGLM+Volcano Engine TTSは、高品質な音声出力が要求されるシーンに推奨されます。すべての切り替え操作は、コアコードを変更することなく、設定ファイル内で完結します。
この答えは記事から得たものである。xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービスについて































