Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Step3 é um projeto de macromodelagem multimodal de código aberto desenvolvido pela StepFun e hospedado no GitHub, projetado para fornecer recursos eficientes e econômicos de geração de conteúdo de texto, imagem e fala. O projeto está centrado em um Modelo Misto de Especialização (MoE) de 32,1 bilhões de parâmetros (3,8 bilhões de parâmetros ativos), otimizado para velocidade e desempenho de inferência e adequado para uso em ambientes de produção. O Step3 oferece suporte a interfaces de API compatíveis com OpenAI e Anthropic, e os pesos do modelo são armazenados nos formatos bf16 e block-fp8, facilitando a implantação em diversos mecanismos de inferência pelos desenvolvedores. O projeto fornece guias de implantação detalhados e código de amostra, além de oferecer suporte a estruturas de inferência, como vLLM e SGLang etc. A StepFun tem o compromisso de promover o desenvolvimento da inteligência artificial por meio de código aberto, e o código e os pesos do modelo do Step3 são licenciados sob a licença Apache 2.0, para que os desenvolvedores possam usá-los e personalizá-los livremente.

Endereço de experiência:Step AI (Leap Ask): assistente de eficiência pessoal com IA lançado pela Step Star

 

Lista de funções

  • Oferece suporte à geração de conteúdo multimodal: processa entradas de texto, imagem e fala para gerar resultados de alta qualidade.
  • Otimização de raciocínio eficiente: com base no Modelo Misto de Especialização (MoE), ele oferece velocidades de raciocínio rápidas e é adequado para aplicativos em tempo real.
  • API compatível com OpenAI/Anthropic: por meio do https://platform.stepfun.com/ Fornece interfaces de API padronizadas.
  • Suporte aos formatos bf16 e block-fp8: os pesos do modelo otimizam o armazenamento e reduzem os requisitos de hardware.
  • Fornece exemplos de implantação de vLLM e SGLang: simplifica o processo de implantação de modelos em ambientes de produção.
  • Código-fonte aberto e pesos do modelo: os desenvolvedores podem baixá-los, modificá-los e usá-los livremente.

Usando a Ajuda

Instalação e implementação

Para usar a Step3, os desenvolvedores precisam primeiro clonar o código de um repositório do GitHub e configurar o ambiente de desenvolvimento. Aqui estão as etapas detalhadas de instalação e uso:

  1. Repositório de código clone
    Use o seguinte comando para obter o código do projeto Step3 do GitHub:

    git clone https://github.com/stepfun-ai/Step3.git
    cd Step3
    

    Isso fará o download do código-fonte da Step3 localmente.

  2. Configuração do ambiente Python
    Etapa 3 O Python 3.10 ou superior é recomendado e requer a instalação do PyTorch (versão recomendada ≥2.1.0) e da biblioteca Transformers (versão recomendada 4.54.0). Você pode configurar seu ambiente seguindo estas etapas:

    conda create -n step3 python=3.10
    conda activate step3
    pip install torch>=2.1.0
    pip install transformers==4.54.0
    

    Certifique-se de verificar se o ambiente está configurado corretamente após a conclusão da instalação.

  3. Download dos pesos do modelo
    Os pesos de modelo do Step3 são hospedados na plataforma Hugging Face nos formatos bf16 e block-fp8. Os desenvolvedores podem fazer o download no seguinte endereço:

    • Endereço do modelo Hugging Face:https://huggingface.co/stepfun-ai/step3
    • Exemplo de download:
      git clone https://huggingface.co/stepfun-ai/step3
      

    Após o download, a estrutura de diretório dos pesos do modelo deve conter os arquivos de modelo necessários, como step3-fp8 talvez step3.

  4. modelo de implantação
    A Step3 oferece suporte ao vLLM e ao mecanismo de inferência SGLang, e recomenda-se um ambiente com várias GPUs (por exemplo, 4 GPUs A800/H800 com 80 GB de memória de vídeo cada) para obter o desempenho ideal. Abaixo estão as etapas da implementação usando o vLLM como exemplo:

    • Inicie o serviço vLLM:
      python -m vllm.entrypoints.api_server --model stepfun-ai/step3 --port 8000
      
    • Após a execução, o serviço de API será executado localmente no diretório http://localhost:8000 fornecidos, os desenvolvedores podem chamar o modelo por meio da API.
    • Exemplo de solicitação de API:
      import requests
      url = "http://localhost:8000/v1/completions"
      data = {
      "model": "stepfun-ai/step3",
      "prompt": "生成一张秋天森林的图片描述",
      "max_tokens": 512
      }
      response = requests.post(url, json=data)
      print(response.json())
      
  5. Raciocínio com a biblioteca Transformers
    Se você não usar o vLLM, poderá carregar o modelo para inferência diretamente por meio da biblioteca Transformers. Abaixo está o código de exemplo:

    from transformers import AutoProcessor, AutoModelForCausalLM
    # 定义模型路径
    model_path = "stepfun-ai/step3"
    processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", torch_dtype="auto", trust_remote_code=True)
    # 输入示例(图像 + 文本)
    messages = [
    {
    "role": "user",
    "content": [
    {"type": "image", "image": "https://example.com/image.jpg"},
    {"type": "text", "text": "描述这张图片的内容"}
    ]
    }
    ]
    # 预处理输入
    inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(model.device)
    # 生成输出
    generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False)
    decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
    print(decoded)
    

    Este código mostra como carregar um modelo, processar entradas multimodais e gerar saída.

  6. Operação da função em destaque
    • Entradas multimodaisStep3 suporta entrada de texto, imagem e voz. Os desenvolvedores podem transmitir dados multimodais por meio da API ou da biblioteca Transformers. Por exemplo, ao fazer o upload de uma imagem com um prompt de texto, o modelo pode gerar uma descrição relacionada à imagem ou responder a uma pergunta.
    • Raciocínio eficienteA arquitetura MoE do Step3 otimiza a velocidade de inferência para aplicativos em tempo real. Os desenvolvedores podem ajustar a max_new_tokens controla o comprimento da saída, com um valor recomendado de 512 a 32768.
    • Modelos personalizadosOs desenvolvedores podem se basear no código-fonte aberto da Step3 para ajustar e adaptar o modelo a tarefas específicas, como a geração de um estilo específico de texto ou imagem.
  7. Depuração e suporte
    Se você encontrar problemas na implantação ou no uso, poderá enviar um problema pelo GitHub ou entrar em contato com o endereço de e-mail oficial. contact@stepfun.com A comunidade StepFun também oferece o canal Discord (https://discord.gg/92ye5tjg7K) para os desenvolvedores se comunicarem.

cenário do aplicativo

  1. criação de conteúdo
    O Step3 pode ser usado para gerar artigos, descrições de imagens ou scripts de vídeo curtos. Os criadores podem inserir prompts de texto ou imagens para gerar rapidamente conteúdo de alta qualidade adequado para blogs, mídia social ou publicidade.
  2. Atendimento inteligente ao cliente
    Os recursos multimodais do Step3 suportam interações de voz e texto e podem ser usados para criar sistemas inteligentes de atendimento ao cliente. As organizações podem integrar o Step3 por meio de APIs para lidar com as consultas dos clientes e gerar respostas em linguagem natural.
  3. Auxílios educacionais
    Professores e alunos podem usar o Step3 para gerar materiais didáticos ou responder a perguntas. Por exemplo, ao fazer o upload de uma imagem de um experimento científico, o modelo pode gerar instruções detalhadas passo a passo para o experimento.
  4. processamento multimídia
    A etapa 3 é adequada para o processamento de dados multimodais, como a análise de quadros de vídeo e a geração de legendas, ou a geração de resumos de texto com base em áudio, para edição de vídeo e análise de conteúdo.

QA

  1. Etapa 3 Quais mecanismos de inferência são compatíveis?
    A Step3 recomenda o uso do vLLM e do SGLang para inferência, que suporta pesos de modelo nos formatos bf16 e block-fp8 e é adequado para ambientes com várias GPUs.
  2. Como faço para obter os pesos dos modelos?
    Os pesos dos modelos podem ser baixados da plataforma Hugging Face em https://huggingface.co/stepfun-ai/step3. Clone o depósito e use-o.
  3. Quais são os requisitos de hardware para a Step3?
    Recomendamos o uso de 4 GPUs A800/H800 com 80 GB de RAM. É possível usar uma única GPU, mas é mais lento.
  4. Ele oferece suporte a modelos de ajuste fino?
    Sim, o código-fonte aberto e os pesos do modelo do Step3 permitem que os desenvolvedores ajustem e adaptem tarefas personalizadas.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil