Derzeitige Position:Abb. Anfang " AI-Werkzeugbibliothek

Schritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale Inhalte

2025-08-02

AI-Werkzeugbibliothek/Grundmodell/multimodales Modell

929 4

eine Kopie machen von

Step3 ist ein Open-Source-Projekt zur multimodalen Makromodellierung, das von StepFun entwickelt und auf GitHub gehostet wird. Es wurde entwickelt, um effiziente und kostengünstige Funktionen zur Generierung von Text-, Bild- und Sprachinhalten bereitzustellen. Das Projekt basiert auf einem gemischten Modell der Expertise (MoE) mit 32,1 Milliarden Parametern (3,8 Milliarden aktive Parameter), das für die Inferenzgeschwindigkeit und -leistung in Produktionsumgebungen optimiert wurde.Step3 unterstützt OpenAI und Anthropisch Kompatible API-Schnittstellen, Modellgewichte werden im bf16- und block-fp8-Format gespeichert, was für Entwickler bequem ist, um sie auf mehreren Inferenzmaschinen einzusetzen. Das Projekt bietet detaillierte Einsatzanleitungen und Beispielcode zur Unterstützung der vLLM StepFun setzt sich dafür ein, KI durch Open Source voranzutreiben. Der Code und die Modellgewichte von Step3 sind unter der Apache 2.0 Lizenz lizenziert, so dass Entwickler sie frei verwenden und anpassen können.

Erfahrung Adresse:Step AI (Leap Ask): AI-Assistent für persönliche Effizienz von Step Star

Funktionsliste

Unterstützt multimodale Inhaltserstellung: Verarbeitet Text-, Bild- und Spracheingaben, um eine hochwertige Ausgabe zu erzeugen.
Effiziente Reasoning-Optimierung: Sie basiert auf dem Mixed Model of Expertise (MoE), bietet eine hohe Reasoning-Geschwindigkeit und ist für Echtzeitanwendungen geeignet.
OpenAI/Anthropic-kompatible API: über die https://platform.stepfun.com/ Bietet standardisierte API-Schnittstellen.
Unterstützung der Formate bf16 und block-fp8: Modellgewichte optimieren die Speicherung und reduzieren die Hardwareanforderungen.
Beispiele für die Bereitstellung von vLLM und SGLang: vereinfacht den Prozess der Bereitstellung von Modellen in Produktionsumgebungen.
Open-Source-Code und Modellgewichte: Entwickler können sie frei herunterladen, verändern und verwenden.

Hilfe verwenden

Installation und Einsatz

Um Step3 zu nutzen, müssen Entwickler zunächst den Code aus einem GitHub-Repository klonen und die Entwicklungsumgebung einrichten. Hier sind die detaillierten Schritte zur Installation und Nutzung:

Code-Repository klonen
Verwenden Sie den folgenden Befehl, um den Step3-Projektcode von GitHub zu erhalten:
```
git clone https://github.com/stepfun-ai/Step3.git
cd Step3
```
Dadurch wird der Quellcode von Step3 lokal heruntergeladen.
Einrichten der Python-Umgebung
Schritt 3 Python 3.10 und höher wird empfohlen und erfordert die Installation von PyTorch (empfohlene Version ≥2.1.0) und der Transformers-Bibliothek (empfohlene Version 4.54.0). Sie können Ihre Umgebung anhand der folgenden Schritte konfigurieren:
```
conda create -n step3 python=3.10
conda activate step3
pip install torch>=2.1.0
pip install transformers==4.54.0
```
Vergewissern Sie sich nach Abschluss der Installation, dass die Umgebung korrekt konfiguriert ist.
Download Modellgewichte
Die Modellgewichte von Step3 werden auf der Hugging Face Plattform in den Formaten bf16 und block-fp8 bereitgestellt. Entwickler können sie unter der folgenden Adresse herunterladen:
- Hugging Face Modelladresse:https://huggingface.co/stepfun-ai/step3
- Beispiel herunterladen:
```
git clone https://huggingface.co/stepfun-ai/step3
```
Nach dem Herunterladen sollte die Verzeichnisstruktur der Modellgewichte die erforderlichen Modelldateien enthalten, z. B. step3-fp8 vielleicht step3.
Bereitstellungsmodell
Step3 unterstützt vLLM und die SGLang-Inferenz-Engine. Für eine optimale Leistung wird eine Multi-GPU-Umgebung empfohlen (z. B. 4 A800/H800-GPUs mit je 80 GB Videospeicher). Nachfolgend finden Sie die Schritte für den Einsatz von vLLM als Beispiel:
- Starten Sie den vLLM-Dienst:
```
python -m vllm.entrypoints.api_server --model stepfun-ai/step3 --port 8000
```
- Nach der Ausführung wird der API-Dienst lokal in der http://localhost:8000 zur Verfügung gestellt wird, können Entwickler das Modell über die API aufrufen.
- Beispiel für eine API-Anfrage:
```
import requests
url = "http://localhost:8000/v1/completions"
data = {
"model": "stepfun-ai/step3",
"prompt": "生成一张秋天森林的图片描述",
"max_tokens": 512
}
response = requests.post(url, json=data)
print(response.json())
```

Reasoning mit der Transformers-Bibliothek
Wenn Sie vLLM nicht verwenden, können Sie das Modell zur Inferenz direkt über die Transformers-Bibliothek laden. Nachstehend finden Sie den Beispielcode:

from transformers import AutoProcessor, AutoModelForCausalLM
# 定义模型路径
model_path = "stepfun-ai/step3"
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", torch_dtype="auto", trust_remote_code=True)
# 输入示例（图像 + 文本）
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "https://example.com/image.jpg"},
{"type": "text", "text": "描述这张图片的内容"}
]
}
]
# 预处理输入
inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(model.device)
# 生成输出
generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False)
decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
print(decoded)

Dieser Code zeigt, wie man ein Modell lädt, multimodale Eingaben verarbeitet und Ausgaben erzeugt.

Featured Function Bedienung
- Multimodale EingängeStep3 unterstützt Text-, Bild- und Spracheingaben. Entwickler können multimodale Daten über die API oder die Transformers-Bibliothek einspeisen. Wenn Sie zum Beispiel ein Bild mit einer Texteingabe hochladen, kann das Modell eine Beschreibung zu dem Bild generieren oder eine Frage beantworten.
- Effizientes ReasoningDie MoE-Architektur von Step3 optimiert die Inferenzgeschwindigkeit für Echtzeitanwendungen. Entwickler können die max_new_tokens steuert die Ausgabelänge, wobei Werte zwischen 512 und 32768 empfohlen werden.
- Maßgeschneiderte ModelleEntwickler können auf dem Open-Source-Code von Step3 aufbauen, um das Modell zu verfeinern und an spezifische Aufgaben anzupassen, z. B. um einen bestimmten Text- oder Bildstil zu erzeugen.
Fehlersuche und Unterstützung
Wenn Sie Probleme bei der Bereitstellung oder Verwendung haben, können Sie einen Fehler über GitHub melden oder die offizielle E-Mail-Adresse kontaktieren. contact@stepfun.com Die StepFun-Community bietet auch den Discord-Kanal (https://discord.gg/92ye5tjg7K) für Entwickler zu kommunizieren.

Anwendungsszenario

Erstellung von Inhalten
Step3 kann zur Erstellung von Artikeln, Bildbeschreibungen oder kurzen Videoskripten verwendet werden. Ersteller können Textaufforderungen oder Bilder eingeben, um schnell hochwertige Inhalte zu erstellen, die für Blogs, soziale Medien oder Werbung geeignet sind.
Intelligente Kundenbetreuung
Die multimodalen Fähigkeiten von Step3 unterstützen Sprach- und Textinteraktionen und können für den Aufbau intelligenter Kundenservicesysteme genutzt werden. Unternehmen können Step3 über APIs integrieren, um Kundenanfragen zu bearbeiten und natürlichsprachliche Antworten zu generieren.
Pädagogische Hilfsmittel
Lehrer und Schüler können Step3 nutzen, um Unterrichtsmaterialien zu erstellen oder Fragen zu beantworten. Wenn Sie zum Beispiel ein Bild eines wissenschaftlichen Experiments hochladen, kann das Modell eine detaillierte Schritt-für-Schritt-Anleitung für das Experiment erstellen.
Multimedia-Verarbeitung
Step3 eignet sich für die Verarbeitung multimodaler Daten, z. B. für die Analyse von Videobildern und die Erstellung von Untertiteln oder für die Erstellung von Textzusammenfassungen auf der Grundlage von Audiodaten für die Videobearbeitung und Inhaltsanalyse.

QA

Schritt 3 Welche Inferenzmaschinen werden unterstützt?
Step3 empfiehlt die Verwendung von vLLM und SGLang für die Inferenz, die Modellgewichte im bf16- und block-fp8-Format unterstützt und für Multi-GPU-Umgebungen geeignet ist.
Wie erhalte ich Modellgewichte?
Die Modellgewichte können von der Hugging Face-Plattform heruntergeladen werden unter https://huggingface.co/stepfun-ai/step3. Klonen Sie das Lagerhaus und verwenden Sie es.
Was sind die Hardwareanforderungen für Step3?
Wir empfehlen die Verwendung von 4 A800/H800 GPUs mit 80 GB RAM. Die Verwendung einer einzelnen GPU ist möglich, aber langsamer.
Unterstützt es fein abgestimmte Modelle?
Ja, der offene Quellcode und die Modellgewichte von Step3 ermöglichen Entwicklern die Feinabstimmung und Anpassung an individuelle Aufgaben.

AI Open-Source-Projekt

KI-Produktivitätswerkzeuge " Schritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale Inhalte Geschrieben am 2025-08-02, wenn Sie feststellen, dass die URL veraltet oder nicht zugänglich ist, kontaktieren Sie uns bitte.

0Lesezeichen

0Gelobt

Schritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale Inhalte

Funktionsliste

Hilfe verwenden

Installation und Einsatz

Anwendungsszenario

QA

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Schritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale Inhalte

Funktionsliste

Hilfe verwenden

Installation und Einsatz

Anwendungsszenario

QA

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Schnellabfragestation AI-Tool