环境限制说明
HRM默认依赖CUDA扩展,但可通过以下方案在AMD/Intel显卡上运行:
alternativa
- 方案1:CPU模式
- 安装PyTorch的CPU版本:pip install torch –cpu
- 修改代码中所有.cuda()调用为.cpu()
- 设置环境变量:export CUDA_VISIBLE_DEVICES=-1
注:推理速度降低约10倍
- 方案2:ROCm转换
- 安装PyTorch的ROCm版本
- 使用torch.compile()启用自动优化
- 重写CUDA内核为HIP代码
- 方案3:云服务代理
- 通过ONNX Runtime部署到Azure ML
- 使用TensorRT-LLM转换模型
comparação de desempenho
设备 | 相对速度 | 内存占用 |
---|---|---|
RTX 4090 | 100% | 8GB |
AMD MI250 | 85% | 11GB |
Intel Xeon | 12% | 32GB |
Essa resposta foi extraída do artigoHRM: modelos de raciocínio hierárquico para raciocínio complexoO