Posição atual:fig. início " Biblioteca de ferramentas de IA

Etapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodal

2025-08-02

Biblioteca de ferramentas de IA/modelo básico/modelo multimodal

942 4

fazer uma cópia de

Link diretoVisualização móvel

O Step3 é um projeto de macromodelagem multimodal de código aberto desenvolvido pela StepFun e hospedado no GitHub, projetado para fornecer recursos eficientes e econômicos de geração de conteúdo de texto, imagem e fala. O projeto está centrado em um Modelo Misto de Especialização (MoE) de 32,1 bilhões de parâmetros (3,8 bilhões de parâmetros ativos), otimizado para velocidade de inferência e desempenho para ambientes de produção. Antrópica Com interfaces de API compatíveis, os pesos do modelo são armazenados no formato bf16 e block-fp8, o que é conveniente para os desenvolvedores implantarem em vários mecanismos de inferência. O projeto fornece guias de implantação detalhados e código de amostra para dar suporte ao vLLM A StepFun está comprometida com o avanço da IA por meio de código aberto, e o código e os pesos do modelo do Step3 são licenciados sob a licença Apache 2.0, permitindo que os desenvolvedores os usem e personalizem livremente.

Endereço de experiência:Step AI (Leap Ask): assistente de eficiência pessoal com IA lançado pela Step Star

Lista de funções

Oferece suporte à geração de conteúdo multimodal: processa entradas de texto, imagem e fala para gerar resultados de alta qualidade.
Otimização de raciocínio eficiente: com base no Modelo Misto de Especialização (MoE), ele oferece velocidades de raciocínio rápidas e é adequado para aplicativos em tempo real.
API compatível com OpenAI/Anthropic: por meio do https://platform.stepfun.com/ Fornece interfaces de API padronizadas.
Suporte aos formatos bf16 e block-fp8: os pesos do modelo otimizam o armazenamento e reduzem os requisitos de hardware.
Fornece exemplos de implantação de vLLM e SGLang: simplifica o processo de implantação de modelos em ambientes de produção.
Código-fonte aberto e pesos do modelo: os desenvolvedores podem baixá-los, modificá-los e usá-los livremente.

Usando a Ajuda

Instalação e implementação

Para usar a Step3, os desenvolvedores precisam primeiro clonar o código de um repositório do GitHub e configurar o ambiente de desenvolvimento. Aqui estão as etapas detalhadas de instalação e uso:

Repositório de código clone
Use o seguinte comando para obter o código do projeto Step3 do GitHub:
```
git clone https://github.com/stepfun-ai/Step3.git
cd Step3
```
Isso fará o download do código-fonte da Step3 localmente.
Configuração do ambiente Python
Etapa 3 O Python 3.10 ou superior é recomendado e requer a instalação do PyTorch (versão recomendada ≥2.1.0) e da biblioteca Transformers (versão recomendada 4.54.0). Você pode configurar seu ambiente seguindo estas etapas:
```
conda create -n step3 python=3.10
conda activate step3
pip install torch>=2.1.0
pip install transformers==4.54.0
```
Certifique-se de verificar se o ambiente está configurado corretamente após a conclusão da instalação.
Download dos pesos do modelo
Os pesos de modelo do Step3 são hospedados na plataforma Hugging Face nos formatos bf16 e block-fp8. Os desenvolvedores podem fazer o download no seguinte endereço:
- Endereço do modelo Hugging Face:https://huggingface.co/stepfun-ai/step3
- Exemplo de download:
```
git clone https://huggingface.co/stepfun-ai/step3
```
Após o download, a estrutura de diretório dos pesos do modelo deve conter os arquivos de modelo necessários, como step3-fp8 talvez step3.
modelo de implantação
A Step3 oferece suporte ao vLLM e ao mecanismo de inferência SGLang, e recomenda-se um ambiente com várias GPUs (por exemplo, 4 GPUs A800/H800 com 80 GB de memória de vídeo cada) para obter o desempenho ideal. Abaixo estão as etapas da implementação usando o vLLM como exemplo:
- Inicie o serviço vLLM:
```
python -m vllm.entrypoints.api_server --model stepfun-ai/step3 --port 8000
```
- Após a execução, o serviço de API será executado localmente no diretório http://localhost:8000 fornecidos, os desenvolvedores podem chamar o modelo por meio da API.
- Exemplo de solicitação de API:
```
import requests
url = "http://localhost:8000/v1/completions"
data = {
"model": "stepfun-ai/step3",
"prompt": "生成一张秋天森林的图片描述",
"max_tokens": 512
}
response = requests.post(url, json=data)
print(response.json())
```

Raciocínio com a biblioteca Transformers
Se você não usar o vLLM, poderá carregar o modelo para inferência diretamente por meio da biblioteca Transformers. Abaixo está o código de exemplo:

from transformers import AutoProcessor, AutoModelForCausalLM
# 定义模型路径
model_path = "stepfun-ai/step3"
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", torch_dtype="auto", trust_remote_code=True)
# 输入示例（图像 + 文本）
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "https://example.com/image.jpg"},
{"type": "text", "text": "描述这张图片的内容"}
]
}
]
# 预处理输入
inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(model.device)
# 生成输出
generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False)
decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
print(decoded)

Este código mostra como carregar um modelo, processar entradas multimodais e gerar saída.

Operação da função em destaque
- Entradas multimodaisStep3 suporta entrada de texto, imagem e voz. Os desenvolvedores podem transmitir dados multimodais por meio da API ou da biblioteca Transformers. Por exemplo, ao fazer o upload de uma imagem com um prompt de texto, o modelo pode gerar uma descrição relacionada à imagem ou responder a uma pergunta.
- Raciocínio eficienteA arquitetura MoE do Step3 otimiza a velocidade de inferência para aplicativos em tempo real. Os desenvolvedores podem ajustar a max_new_tokens controla o comprimento da saída, com um valor recomendado de 512 a 32768.
- Modelos personalizadosOs desenvolvedores podem se basear no código-fonte aberto da Step3 para ajustar e adaptar o modelo a tarefas específicas, como a geração de um estilo específico de texto ou imagem.
Depuração e suporte
Se você encontrar problemas na implantação ou no uso, poderá enviar um problema pelo GitHub ou entrar em contato com o endereço de e-mail oficial. contact@stepfun.com A comunidade StepFun também oferece o canal Discord (https://discord.gg/92ye5tjg7K) para os desenvolvedores se comunicarem.

cenário do aplicativo

criação de conteúdo
O Step3 pode ser usado para gerar artigos, descrições de imagens ou scripts de vídeo curtos. Os criadores podem inserir prompts de texto ou imagens para gerar rapidamente conteúdo de alta qualidade adequado para blogs, mídia social ou publicidade.
Atendimento inteligente ao cliente
Os recursos multimodais do Step3 suportam interações de voz e texto e podem ser usados para criar sistemas inteligentes de atendimento ao cliente. As organizações podem integrar o Step3 por meio de APIs para lidar com as consultas dos clientes e gerar respostas em linguagem natural.
Auxílios educacionais
Professores e alunos podem usar o Step3 para gerar materiais didáticos ou responder a perguntas. Por exemplo, ao fazer o upload de uma imagem de um experimento científico, o modelo pode gerar instruções detalhadas passo a passo para o experimento.
processamento multimídia
A etapa 3 é adequada para o processamento de dados multimodais, como a análise de quadros de vídeo e a geração de legendas, ou a geração de resumos de texto com base em áudio, para edição de vídeo e análise de conteúdo.

QA

Etapa 3 Quais mecanismos de inferência são compatíveis?
A Step3 recomenda o uso do vLLM e do SGLang para inferência, que suporta pesos de modelo nos formatos bf16 e block-fp8 e é adequado para ambientes com várias GPUs.
Como faço para obter os pesos dos modelos?
Os pesos dos modelos podem ser baixados da plataforma Hugging Face em https://huggingface.co/stepfun-ai/step3. Clone o depósito e use-o.
Quais são os requisitos de hardware para a Step3?
Recomendamos o uso de 4 GPUs A800/H800 com 80 GB de RAM. É possível usar uma única GPU, mas é mais lento.
Ele oferece suporte a modelos de ajuste fino?
Sim, o código-fonte aberto e os pesos do modelo do Step3 permitem que os desenvolvedores ajustem e adaptem tarefas personalizadas.

Projeto de código aberto de IA

Ferramentas de produtividade de IA " Etapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodal Publicado em 2025-08-02. Se você achar que o URL está desatualizado ou inacessível, entre em contato conosco.

0Marcado

0Recomendado

Etapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodal

Lista de funções

Usando a Ajuda

Instalação e implementação

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Etapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodal

Lista de funções

Usando a Ajuda

Instalação e implementação

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida