Chitu(赤兔)是由清华大学PACMAN团队开发的一个开源大语言模型推理框架,专门用于高效部署和运行大语言模型(LLM)。它的名称来源于三国名马”赤兔”,象征着高性能的特点。
主要核心特点包括:
- 高性能:支持FP8模型推理,相比传统方法可显著降低计算成本,在A800上跑DeepSeek-671B时比vLLM少用一半GPU资源,速度快3倍多
- 硬件兼容性强:支持从NVIDIA GPU到国产芯片等多种硬件平台,从单机到大规模集群都能运行
- 技術の最適化:采用CUDA Graph优化推理速度,使单次请求输出更快
- 柔軟な展開:提供HTTP服务接口,支持多节点分布式推理,适合生产环境使用
- 完全なオープンソース:代码在GitHub公开,企业可根据需求自由修改和优化
Chitu主要定位于需要平衡成本与性能的企业用户,特别是在大规模部署LLM时提供高效的解决方案。
この答えは記事から得たものである。Chitu (Red Rabbit): 清華チームが発表した高性能大規模言語モデル推論フレームワークについて