Eine praktische Lösung zur Verbesserung der Reaktionsfähigkeit von Zola bei mehreren Modellen
Die folgenden Optimierungsmaßnahmen können ergriffen werden, um das Problem der Verzögerung beim Modellwechsel zu lösen:
- Vorgeladene Modellkonfiguration: in
app/configKatalog vorkonfigurierter Endpunkte und Parametervorlagen für alle Modelle zur Verkürzung der Bearbeitungszeit für Echtzeitanfragen - Erstellen Sie einen VerbindungspoolModifizierung der Api-Routing-Datei, um lange Verbindungen für Modelle, die häufig verwendet werden (z.B. GPT-3.5), aufrechtzuerhalten, anstatt jedes Mal eine neue Sitzung zu erstellen
- Caching-Strategie: in
middleware.jsDie Einrichtung der SWR-Zwischenspeicherung in einer Abfrage liefert zwischengespeicherte Ergebnisse für Abfragen mit denselben Parametern - Front-End-Optimierung1) Verwenden Sie Suspense, um asynchrones Laden zu implementieren; 2) Fügen Sie eine Ladezustandsanimation hinzu, um das Warteerlebnis zu verbessern
Erweiterte Optionen sind 1) die Indizierung des von Supabase gespeicherten Konversationsverlaufs und 2) die Aktivierung von WebAssembly zur lokalen Ausführung für leichtgewichtige Modelle wie Mistral.
Diese Antwort stammt aus dem ArtikelZola: Open-Source-KI-Chat-Web-App mit Dokumenten-Upload und Multi-Modell-UnterstützungDie






























