Der Einsatz des Large Model Inference API-Dienstes mit KTransformers kann in den folgenden Schritten erfolgen:
- EinbaurahmenKlonen Sie das Repository und installieren Sie die Abhängigkeiten.
git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers
pip install -r requirements-local_chat.txt
python setup.py install - Starten des API-DienstesFühren Sie den Befehl zum Starten des Dienstes aus
python -m ktransformers.api - Anfrage sendenAPIs mit cURL oder anderen HTTP-Clients testen
curl -X POST "http://localhost:8000/infer" -d '{"text": "你好,KTransformers!"}' - Konfiguration ErweiterungenErweiterte Konfigurationen, wie z. B. Multi-GPU-Unterstützung, können durch Bearbeiten der Datei config.yaml vorgenommen werden.
Die API-Dienste von KTransformers folgen den Standards von OpenAI und Ollama und lassen sich problemlos in eine Vielzahl von Anwendungen und Plattformen integrieren.
Diese Antwort stammt aus dem ArtikelKTransformers: Leistungsstarke Engine für die Inferenz großer Modelle: Extreme Beschleunigung, flexible BefähigungDie































