轻量化部署的工程方案
针对1B/3B模型的不同需求:
- 框架选择:支持Transformers原生推理和vLLM优化框架(后者吞吐量提升3-5倍)
- 量化压缩:使用
torch.quantization
可将3B模型压缩至2GB以内 - 分层加载:语音编码(xcodec2)与生成模型可分设备部署
具体步骤:1)使用model.to('cpu')
测试基准性能;2)启用torch.jit.trace
生成优化图;3)8B版本发布后将提供ONNX运行时支持。
本答案来源于文章《Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型》