Die wichtigsten Schritte für die Bereitstellung des Step3-API-Dienstes über vLLM sind wie folgt
- Starten Sie den API-Server: Führen Sie den Befehl
python -m vllm.entrypoints.api_server --model stepfun-ai/step3 --port 8000
Der Dienst wird auf dem lokalen Port 8000 ausgeführt. - API-Anfrage senden: Senden Sie eine API-Anfrage per HTTP POST an die
http://localhost:8000/v1/completions
Sendet eine Anfrage im JSON-Format mit Parametern wie model, prompt und max_tokens. - Verarbeitung der Antwort: Die API gibt das generierte Ergebnis im JSON-Format zurück, das geparst und direkt verwendet werden kann.
Beispielanfragen können multimodale Inhalte enthalten, z. B. die Übermittlung von Bild-URLs und Textaufforderungen. Die effizienten Argumentationsfähigkeiten von vLLM eignen sich besonders gut für Echtzeit-Anwendungsszenarien in Produktionsumgebungen, in denen hochkonkurrierende Anfragen effizient bearbeitet werden können.
Diese Antwort stammt aus dem ArtikelSchritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale InhalteDie