A Step3 usa uma arquitetura híbrida de modelo de especialista (MoE) que otimiza significativamente a velocidade de raciocínio, tornando-a adequada para aplicativos em tempo real. Essa arquitetura reduz os requisitos de hardware e, ao mesmo tempo, mantém o desempenho por meio da alocação eficiente de recursos computacionais. Os desenvolvedores podem ajustar parâmetros comomax_new_tokens
(valores recomendados de 512 a 32768) para controlar o comprimento da saída, de modo a atender às necessidades de diferentes cenários de aplicação.
Essa resposta foi extraída do artigoEtapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodalO