Step3 ist ein von StepFun entwickeltes und auf GitHub gehostetes Open-Source-Projekt zur multimodalen Makromodellierung, das effiziente und kostengünstige Funktionen zur Erzeugung von Text-, Bild- und Sprachinhalten bietet. Das Projekt basiert auf einem Mixed Model of Expertise (MoE) mit 32,1 Milliarden Parametern (3,8 Milliarden aktive Parameter), das auf Inferenzgeschwindigkeit und -leistung optimiert ist und sich für den Einsatz in Produktionsumgebungen eignet. Step3 unterstützt OpenAI- und Anthropic-kompatible API-Schnittstellen, und die Modellgewichte sind sowohl im bf16- als auch im block-fp8-Format gespeichert, was es Entwicklern erleichtert, es auf einer Vielzahl von Inferenzmaschinen einzusetzen. Das Projekt stellt detaillierte Einsatzanleitungen und Beispielcode zur Verfügung und unterstützt Inferenz-Frameworks wie vLLM und SGLang usw. StepFun setzt sich für die Förderung der Entwicklung von Künstlicher Intelligenz durch Open Source ein. Der Code und die Modellgewichte von Step3 sind unter der Apache 2.0-Lizenz lizenziert, so dass Entwickler sie frei verwenden und anpassen können.
Erfahrung Adresse:Step AI (Leap Ask): AI-Assistent für persönliche Effizienz von Step Star
Funktionsliste
- Unterstützt multimodale Inhaltserstellung: Verarbeitet Text-, Bild- und Spracheingaben, um eine hochwertige Ausgabe zu erzeugen.
- Effiziente Reasoning-Optimierung: Sie basiert auf dem Mixed Model of Expertise (MoE), bietet eine hohe Reasoning-Geschwindigkeit und ist für Echtzeitanwendungen geeignet.
- OpenAI/Anthropic-kompatible API: über die
https://platform.stepfun.com/
Bietet standardisierte API-Schnittstellen. - Unterstützung der Formate bf16 und block-fp8: Modellgewichte optimieren die Speicherung und reduzieren die Hardwareanforderungen.
- Beispiele für die Bereitstellung von vLLM und SGLang: vereinfacht den Prozess der Bereitstellung von Modellen in Produktionsumgebungen.
- Open-Source-Code und Modellgewichte: Entwickler können sie frei herunterladen, verändern und verwenden.
Hilfe verwenden
Installation und Einsatz
Um Step3 zu nutzen, müssen Entwickler zunächst den Code aus einem GitHub-Repository klonen und die Entwicklungsumgebung einrichten. Hier sind die detaillierten Schritte zur Installation und Nutzung:
- Code-Repository klonen
Verwenden Sie den folgenden Befehl, um den Step3-Projektcode von GitHub zu erhalten:git clone https://github.com/stepfun-ai/Step3.git cd Step3
Dadurch wird der Quellcode von Step3 lokal heruntergeladen.
- Einrichten der Python-Umgebung
Schritt 3 Python 3.10 und höher wird empfohlen und erfordert die Installation von PyTorch (empfohlene Version ≥2.1.0) und der Transformers-Bibliothek (empfohlene Version 4.54.0). Sie können Ihre Umgebung anhand der folgenden Schritte konfigurieren:conda create -n step3 python=3.10 conda activate step3 pip install torch>=2.1.0 pip install transformers==4.54.0
Vergewissern Sie sich nach Abschluss der Installation, dass die Umgebung korrekt konfiguriert ist.
- Download Modellgewichte
Die Modellgewichte von Step3 werden auf der Hugging Face Plattform in den Formaten bf16 und block-fp8 bereitgestellt. Entwickler können sie unter der folgenden Adresse herunterladen:- Hugging Face Modelladresse:
https://huggingface.co/stepfun-ai/step3
- Beispiel herunterladen:
git clone https://huggingface.co/stepfun-ai/step3
Nach dem Herunterladen sollte die Verzeichnisstruktur der Modellgewichte die erforderlichen Modelldateien enthalten, z. B.
step3-fp8
vielleichtstep3
. - Hugging Face Modelladresse:
- Bereitstellungsmodell
Step3 unterstützt vLLM und die SGLang-Inferenz-Engine. Für eine optimale Leistung wird eine Multi-GPU-Umgebung empfohlen (z. B. 4 A800/H800-GPUs mit je 80 GB Videospeicher). Nachfolgend finden Sie die Schritte für den Einsatz von vLLM als Beispiel:- Starten Sie den vLLM-Dienst:
python -m vllm.entrypoints.api_server --model stepfun-ai/step3 --port 8000
- Nach der Ausführung wird der API-Dienst lokal in der
http://localhost:8000
zur Verfügung gestellt wird, können Entwickler das Modell über die API aufrufen. - Beispiel für eine API-Anfrage:
import requests url = "http://localhost:8000/v1/completions" data = { "model": "stepfun-ai/step3", "prompt": "生成一张秋天森林的图片描述", "max_tokens": 512 } response = requests.post(url, json=data) print(response.json())
- Starten Sie den vLLM-Dienst:
- Reasoning mit der Transformers-Bibliothek
Wenn Sie vLLM nicht verwenden, können Sie das Modell zur Inferenz direkt über die Transformers-Bibliothek laden. Nachstehend finden Sie den Beispielcode:from transformers import AutoProcessor, AutoModelForCausalLM # 定义模型路径 model_path = "stepfun-ai/step3" processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", torch_dtype="auto", trust_remote_code=True) # 输入示例(图像 + 文本) messages = [ { "role": "user", "content": [ {"type": "image", "image": "https://example.com/image.jpg"}, {"type": "text", "text": "描述这张图片的内容"} ] } ] # 预处理输入 inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(model.device) # 生成输出 generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False) decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1]:], skip_special_tokens=True) print(decoded)
Dieser Code zeigt, wie man ein Modell lädt, multimodale Eingaben verarbeitet und Ausgaben erzeugt.
- Featured Function Bedienung
- Multimodale EingängeStep3 unterstützt Text-, Bild- und Spracheingaben. Entwickler können multimodale Daten über die API oder die Transformers-Bibliothek einspeisen. Wenn Sie zum Beispiel ein Bild mit einer Texteingabe hochladen, kann das Modell eine Beschreibung zu dem Bild generieren oder eine Frage beantworten.
- Effizientes ReasoningDie MoE-Architektur von Step3 optimiert die Inferenzgeschwindigkeit für Echtzeitanwendungen. Entwickler können die
max_new_tokens
steuert die Ausgabelänge, wobei Werte zwischen 512 und 32768 empfohlen werden. - Maßgeschneiderte ModelleEntwickler können auf dem Open-Source-Code von Step3 aufbauen, um das Modell zu verfeinern und an spezifische Aufgaben anzupassen, z. B. um einen bestimmten Text- oder Bildstil zu erzeugen.
- Fehlersuche und Unterstützung
Wenn Sie Probleme bei der Bereitstellung oder Verwendung haben, können Sie einen Fehler über GitHub melden oder die offizielle E-Mail-Adresse kontaktieren.contact@stepfun.com
Die StepFun-Community bietet auch den Discord-Kanal (https://discord.gg/92ye5tjg7K
) für Entwickler zu kommunizieren.
Anwendungsszenario
- Erstellung von Inhalten
Step3 kann zur Erstellung von Artikeln, Bildbeschreibungen oder kurzen Videoskripten verwendet werden. Ersteller können Textaufforderungen oder Bilder eingeben, um schnell hochwertige Inhalte zu erstellen, die für Blogs, soziale Medien oder Werbung geeignet sind. - Intelligente Kundenbetreuung
Die multimodalen Fähigkeiten von Step3 unterstützen Sprach- und Textinteraktionen und können für den Aufbau intelligenter Kundenservicesysteme genutzt werden. Unternehmen können Step3 über APIs integrieren, um Kundenanfragen zu bearbeiten und natürlichsprachliche Antworten zu generieren. - Pädagogische Hilfsmittel
Lehrer und Schüler können Step3 nutzen, um Unterrichtsmaterialien zu erstellen oder Fragen zu beantworten. Wenn Sie zum Beispiel ein Bild eines wissenschaftlichen Experiments hochladen, kann das Modell eine detaillierte Schritt-für-Schritt-Anleitung für das Experiment erstellen. - Multimedia-Verarbeitung
Step3 eignet sich für die Verarbeitung multimodaler Daten, z. B. für die Analyse von Videobildern und die Erstellung von Untertiteln oder für die Erstellung von Textzusammenfassungen auf der Grundlage von Audiodaten für die Videobearbeitung und Inhaltsanalyse.
QA
- Schritt 3 Welche Inferenzmaschinen werden unterstützt?
Step3 empfiehlt die Verwendung von vLLM und SGLang für die Inferenz, die Modellgewichte im bf16- und block-fp8-Format unterstützt und für Multi-GPU-Umgebungen geeignet ist. - Wie erhalte ich Modellgewichte?
Die Modellgewichte können von der Hugging Face-Plattform heruntergeladen werden unterhttps://huggingface.co/stepfun-ai/step3
. Klonen Sie das Lagerhaus und verwenden Sie es. - Was sind die Hardwareanforderungen für Step3?
Wir empfehlen die Verwendung von 4 A800/H800 GPUs mit 80 GB RAM. Die Verwendung einer einzelnen GPU ist möglich, aber langsamer. - Unterstützt es fein abgestimmte Modelle?
Ja, der offene Quellcode und die Modellgewichte von Step3 ermöglichen Entwicklern die Feinabstimmung und Anpassung an individuelle Aufgaben.