怎样解决在边缘设备部署大模型时的显存不足问题？

2025-08-29

1.1 K

边缘设备显存不足的应对策略

针对边缘设备部署场景，Chitu框架提供以下解决方案:

Mixed-precision inference：同时支持FP8/BF16两种精度模式，老旧GPU可通过infer.soft_fp8=True将显存需求降低至原模型的1/4
CPU offloading technology：纯CPU环境下自动启用内存交换机制，通过设置infer.cpu_offload=True将部分计算转移到内存
Batch Limits: Adjustmentsrequest.max_new_tokenscap (a poem)infer.max_seq_len参数控制单次处理的token数量
模型分割: Utilizationinfer.pp_size参数实现流水线并行，将模型分片加载到不同设备

特别建议：对于国产芯片设备，可查阅GitHub项目中的docs/heterogeneous_hardware.md获取特定优化方案。实际部署前务必使用test/single_req_test.py进行压力测试。