Especificações técnicas para o ambiente operacional do sistema
Para dar suporte à inferência de modelo no nível de parâmetro 32B, o WebThinker requer uma configuração de hardware específica:
- Requisitos de GPUMemória de vídeo NVIDIA V100 de 32 GB, no mínimo, e placas de computador profissionais, como A100/A800, são recomendadas.
- Requisitos de memóriaMemória principal: Não menos que 64 GB de memória principal, com pico de consumo de até 48 GB durante a fase de carregamento do modelo.
- espaço de armazenamentoEspaço SSD de 50 GB necessário para o ambiente completo, incluindo pesos de modelos e bibliotecas de dependências
Na implantação real, a latência de inferência de tarefa única é de cerca de 3 a 5 segundos/etapa. Para tarefas de pesquisa contínua, recomenda-se configurar um cluster Kubernetes para obter simultaneidade de várias tarefas. Notavelmente, o sistema adota a estrutura de inferência vLLM, que oferece suporte a técnicas de otimização de memória, como PagedAttention, permitindo que o modelo 32B atinja a operação quantificada de 8 bits em placas gráficas de nível de consumidor (por exemplo, RTX 4090).
Essa resposta foi extraída do artigoWebThinker: uma ferramenta de raciocínio inteligente que oferece suporte à pesquisa autônoma na Web e à elaboração de relatóriosO































