安装Chitu推理服务可分为以下步骤:
- 获取代码:使用git命令克隆仓库
git clone --recursive https://github.com/thu-pacman/chitu
并进入目录 - 安装依赖:执行
pip install -r requirements-build.txt
安装基础依赖包,还需单独安装flash-attn
优化组件 - 编译安装:设置GPU架构参数后编译,如
TORCH_CUDA_ARCH_LIST=8.0 CHITU_SETUP_JOBS=4 MAX_JOBS=4 pip install --no-build-isolation .
- 测试验证:运行
torchrun --nproc_per_node 1 test/single_req_test.py
进行基本测试
启动推理服务的具体方法是:
- 准备模型文件并确定存放路径
- 使用torchrun命令启动服务,指定模型路径和端口:
torchrun --nproc_per_node 1 chitu/serve.py serve.port=21002 models=DeepSeek-R1 models.ckpt_dir=/data/DeepSeek-R1
- 通过curl发送测试请求:
curl localhost:21002/v1/chat/completions -H "Content-Type: application/json" -d '{"messages": [{"role": "user", "content": "你好,Chitu 是什么?"}]}'
如果仅需要单次测试,可以直接运行single_req_test.py
脚本而无需启动完整服务。
本答案来源于文章《Chitu(赤兔):清华团队推出的高性能大语言模型推理框架》