Alternative Durchführungsprogramme in ressourcenbeschränkten Umgebungen
Eine mehrstufige Lösung für die häufige Situation, dass der Videospeicher nicht ausreicht:
- Grundlegende Programme::
- Bevorzugte 7B quantisierte Version (nur 14GB für FP16, bis zu 8GB für INT8)
- .
--load-in-4bit
Die Parameter werden weiter quantifiziert - CPU-Modus verwenden (erfordert Installation)
transformers
+accelerate
)
- Mittleres Programm::
- Einführung der API-Triage: Senden komplexer Abfragen an 32B-Modelle in der Cloud, einfache Abfragen werden lokal verarbeitet
- Mit Hilfe von Model-Slicing-Techniken (z.B.beschleunigen(in Form eines Nominalausdrucks)
device_map
(Funktion) - Miete von GPU-Instanzen in der Cloud (z. B. A100 für Colab Pro)
- Fortgeschrittenes Programm::
- Erneutes Trainieren von leichtgewichtigen Modellen (basierend auf einer Teilmenge des SynSQL-Datensatzes)
- Implementierung eines Mechanismus zur Zwischenspeicherung von Abfragen, um historische SQL-Daten für doppelte Fragen direkt zurückzugeben.
- ausnutzen
vLLM
Die kontinuierliche Stapelverarbeitung im Rahmen der Durchsatzerhöhung
Hinweis: Das 32B-Modell wird für den Betrieb auf A100 40G und höheren Geräten empfohlen. Ziehen Sie auch den Inference API-Service von HuggingFace in Betracht.
Diese Antwort stammt aus dem ArtikelOmniSQL: Ein Modell zur Umwandlung natürlicher Sprache in qualitativ hochwertige SQL-AbfragenDie