限られたGPUリソースでWebThinkerをデプロイするには？

2025-08-23

523

低资源配置的轻量化部署方案

针对中小企业/个人研究者的适配方法：

模型量化方案：改用4-bit量化版本的Qwen-7B（兼容vLLM），内存需求从60GB降至8GB，在requirements.txt中替换为vllm>=0.3.0以支持量化推理
分阶段执行：将端到端流程拆解为独立任务——先用Colab免费GPU运行搜索阶段，再在本地进行报告生成，通过outputs/temp.json传递中间结果
云服务组合：搭配Modal.com的无服务器GPU（按秒计费），修改deploy/cloud.py实现自动启停，成本可控制在$2/次报告

关键配置调整：