怎样解决 Flock 工作流中 LLM 响应延迟过高的问题？

2025-09-05

1.5 K

Background to the issue

当工作流集成外部 LLM 服务时，网络延迟和处理时间可能导致响应变慢，影响用户体验。

Local Cache Policy::
1. 添加”缓存节点”存储高频问题答案
2. 配置 TTL 时间避免数据过期
Model Selection::
- 在”LLM节点”设置中切换为轻量级模型（如 GPT-3.5-turbo）
- 对非核心功能启用”快速响应模式”
parallel processing::
1. 使用”并行分支节点”同时处理多个子任务
2. 设置超时机制自动跳过长时间未响应的分支
Hardware Optimization::
- 为 Docker 分配更多计算资源（建议4核CPU+8GB内存）
- 启用 GPU 加速（需配置 NVIDIA Container Toolkit）

通过内置日志查看各节点耗时，重点优化瓶颈环节。