Chitu在性能优化方面有哪些特色功能？如何使用这些功能？

2025-08-29

1.1 K

Chitu提供多项专为LLM推理优化的特色功能：

FP8支持：使用8位浮点数格式进行计算，相比BF16可节省显存并提升速度。启用方式是在启动参数中添加infer.soft_fp8=True，同时需要准备FP8格式的模型
CUDA Graph优化：通过重用计算图减少内核启动开销，提升单次请求响应速度。使用方法是在配置中添加infer.use_cuda_graph=True
adaptação de hardware：针对不同GPU提供特定优化，如为NVIDIA A800调整的CUDA架构参数
avaliação comparativaIntegradobenchmark_serving.py工具可以评估系统吞吐量，使用方式：python benchmarks/benchmark_serving.py --model "deepseek-r1" --iterations 10 --seq-len 10 --base-url http://localhost:21002

具体优化建议：

这些优化手段可以让Chitu在不同场景下实现最优性能，特别适合生产环境中需要平衡成本和效率的情况。

Ferramenta de IA da estação de consulta rápida