Das Projekt ist modular aufgebaut, um die flexible Umstellung der wichtigsten KI-Dienste zu unterstützen:
Unterstützung von Sprachmodellen
- StandardprogrammChatGLM: Großes Sprachmodell
- alternative OptionAli Bailian, DeepSeek und andere inländische Mainstream-Modelle
- Konfiguration: durch Ändern der config.yaml
model_providerUmschaltung der Parameter
Programm zur Sprachsynthese (TTS)
- Grundlegende ProgrammeMicrosoft EdgeTTS (standardmäßig aktiviert)
- Erweiterungsprogramm: Volcano Engine TTS für natürlichere Sprachausgabe
- TechnologieabhängigkeitVorinstallierte libopus- und ffmpeg-Komponenten sind erforderlich, um die Audioverarbeitung zu gewährleisten.
Bei der tatsächlichen Bereitstellung können die Benutzer je nach Hardwareleistung und Netzwerkbedingungen die richtige Kombination wählen. Beispielsweise wird die Kombination DeepSeek+EdgeTTS für Szenen mit hohen Echtzeitanforderungen empfohlen, während ChatGLM+Volcano Engine TTS für Szenen empfohlen wird, die eine qualitativ hochwertige Sprachausgabe erfordern. Alle Schaltvorgänge werden in der Konfigurationsdatei abgeschlossen, ohne den Kerncode zu ändern.
Diese Antwort stammt aus dem Artikelxiaozhi-esp32-server: Xiaozhi AI-Chatbot als quelloffener Backend-DienstDie































