硬件要求
- 推荐配置:NVIDIA Blackwell架构GPU(如B200),至少8张GPU组成的集群(总显存约1342GB)
- 最小测试配置:1张高性能GPU(如A100/H100),但性能会有所降低
软件依赖
- 操作系统:Linux(Ubuntu 20.04+)
- 关键组件:最新NVIDIA驱动(支持CUDA 12.4+)、TensorRT-LLM框架(需源码编译)
- 编程环境:Python 3.11+,以及tensorrt_llm、torch等相关库
特别需要注意的是,TensorRT-LLM需要通过GitHub源码编译最新主分支版本,直接pip安装的版本可能不兼容。
本答案来源于文章《DeepSeek-R1-FP4:FP4优化版DeepSeek-R1推理速度25倍》