背景介绍
Proxy Lite 默认使用 Hugging Face Spaces 的演示端点,可能导致任务执行延迟。通过本地部署可显著提升响应速度。
核心解决方案
- 本地部署vLLM服务:运行命令
vllm serve convergence-ai/proxy-lite-3b --trust-remote-code --enable-auto-tool-choice --tool-call-parser hermes --port 8008
创建本地推理端点 - 配置本地API基础路径:
- 临时方案:在命令中添加
--api-base http://localhost:8008/v1
参数 - 持久方案:设置环境变量
export PROXY_LITE_API_BASE=http://localhost:8008/v1
- 临时方案:在命令中添加
- 硬件优化:
- 确保至少8GB内存
- 推荐使用具有CUDA支持的GPU加速推理
注意事项
首次运行需下载3B参数模型,建议在稳定网络环境中操作。本地部署后任务响应速度可提升3-5倍。
本答案来源于文章《Proxy Lite:3B参数视觉模型驱动的网页自动化工具》