边缘设备显存不足的应对策略
针对边缘设备部署场景,Chitu框架提供以下解决方案:
- 混合精度推理:同时支持FP8/BF16两种精度模式,老旧GPU可通过
infer.soft_fp8=True
将显存需求降低至原模型的1/4 - Tecnologia de descarregamento da CPU:纯CPU环境下自动启用内存交换机制,通过设置
infer.cpu_offload=True
将部分计算转移到内存 - Limites de lote: Ajustes
request.max_new_tokens
responder cantandoinfer.max_seq_len
参数控制单次处理的token数量 - 模型分割Utilização
infer.pp_size
参数实现流水线并行,将模型分片加载到不同设备
特别建议:对于国产芯片设备,可查阅GitHub项目中的docs/heterogeneous_hardware.md
获取特定优化方案。实际部署前务必使用test/single_req_test.py
进行压力测试。
Essa resposta foi extraída do artigoChitu (Red Rabbit): uma estrutura de raciocínio de modelo de linguagem grande e de alto desempenho lançada pela equipe da TsinghuaO