hardware requirement
- 推荐配置:NVIDIA Blackwell架构GPU(如B200),至少8张GPU组成的集群(总显存约1342GB)
- 最小测试配置:1张高性能GPU(如A100/H100),但性能会有所降低
software dependency
- Operating System:Linux(Ubuntu 20.04+)
- 关键组件:最新NVIDIA驱动(支持CUDA 12.4+)、TensorRT-LLM框架(需源码编译)
- 编程环境:Python 3.11+,以及tensorrt_llm、torch等相关库
特别需要注意的是,TensorRT-LLM需要通过GitHub源码编译最新主分支版本,直接pip安装的版本可能不兼容。
This answer comes from the articleDeepSeek-R1-FP4: FP4-optimized version of DeepSeek-R1 inference 25x fasterThe