KTransformersを使用したLarge Model Inference APIサービスのデプロイは、以下の手順で行うことができます:
- 設置フレームワークリポジトリをクローンし、依存関係をインストールする。
git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers
pip install -r requirements-local_chat.txt
python setup.py install - APIサービスの開始サービスを開始するコマンドを実行する。
python -m ktransformers.api - リクエストを送信cURLや他のHTTPクライアントを使ったAPIのテスト
curl -X POST "http://localhost:8000/infer" -d '{"text": "你好,KTransformers!"}' - コンフィギュレーション拡張マルチGPUサポートなどの高度な設定は、config.yamlファイルを編集することで行うことができる。
KTransformersのAPIサービスは、OpenAIとOllamaの標準に準拠しており、様々なアプリケーションやプラットフォームに簡単に統合することができます。
この答えは記事から得たものである。KTransformers:大規模モデル推論パフォーマンス・エンジン:極限の加速、柔軟な権限付与について































