海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

怎样解决在边缘设备部署大模型时的显存不足问题?

2025-08-29 1.1 K

边缘设备显存不足的应对策略

针对边缘设备部署场景,Chitu框架提供以下解决方案:

  • 混合精度推理:同时支持FP8/BF16两种精度模式,老旧GPU可通过infer.soft_fp8=True将显存需求降低至原模型的1/4
  • CPU卸载技术:纯CPU环境下自动启用内存交换机制,通过设置infer.cpu_offload=True将部分计算转移到内存
  • 批处理限制:调整request.max_new_tokensinfer.max_seq_len参数控制单次处理的token数量
  • 模型分割:利用infer.pp_size参数实现流水线并行,将模型分片加载到不同设备

特别建议:对于国产芯片设备,可查阅GitHub项目中的docs/heterogeneous_hardware.md获取特定优化方案。实际部署前务必使用test/single_req_test.py进行压力测试。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文