异构计算架构适配方案
对于国产芯片等非NVIDIA平台,Chitu提供以下适配方法:
- 编译优化: modificando o
TORCH_CUDA_ARCH_LIST
参数匹配目标芯片的计算能力版本 - 算子重写: Substituição
kernels/
目录下的CUDA内核为OpenCL/Metal实现 - Ajuste de precisão:在编译时指定
ENABLE_FP16=OFF
关闭不支持的精度模式 - Otimização de memória: Ajustes
infer.memory_fraction
参数适应不同的显存管理机制
实施步骤:(1)在目标设备上运行device_query.py
确认计算能力(2)参考docs/custom_hardware.md
修改CMAKE配置(3)使用--build-only
参数重新编译。目前已知对昇腾910B的适配需额外安装CANN工具包。
Essa resposta foi extraída do artigoChitu (Red Rabbit): uma estrutura de raciocínio de modelo de linguagem grande e de alto desempenho lançada pela equipe da TsinghuaO