O Step3 é um projeto de macromodelagem multimodal de código aberto desenvolvido pela StepFun e hospedado no GitHub. Seu núcleo é um Modelo de Especialistas Mistos (MoE) de 32,1 bilhões de parâmetros (3,8 bilhões de parâmetros ativos) projetado para fornecer recursos eficientes e econômicos de geração de conteúdo de texto, imagem e fala.
Os principais recursos incluem:
- Suporte para geração de conteúdo multimodal (texto, imagens e fala)
- Otimização eficiente da inferência para aplicativos em tempo real
- Fornece uma interface de API compatível com OpenAI e Anthropic
- Os pesos do modelo são armazenados nos formatos bf16 e block-fp8 para reduzir os requisitos de hardware
- Suporte para estruturas de inferência, como vLLM e SGLang
- Código-fonte totalmente aberto com licença Apache 2.0
Essa resposta foi extraída do artigoEtapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodalO
































