Step3 提供了两种解决方案应对显存限制:
- 使用优化的 block-fp8 格式模型权重,相比传统 bf16 格式可显著降低显存占用
- 采用 混合专家模型(MoE)架构,通过仅激活部分专家(38亿活跃参数)来减少计算开销
具体实施方法:在 Hugging Face 下载 block-fp8 格式权重,搭配 vLLM 推理引擎部署。对于 80GB 显存的 A800/H800 GPU,建议使用4卡并行方式运行,显存占用可控制在60GB/卡以内。若硬件条件有限,可适当降低 max_new_tokens
参数值(如设为512)减少计算压力。
本答案来源于文章《Step3:高效生成多模态内容的开源大模型》