análise de gargalos
Os sistemas inteligentes de atendimento ao cliente são propensos a atrasos de resposta durante o pico de tráfego, principalmente devido à fila de chamadas de API de modelos grandes e à concorrência por recursos de recuperação de vetores.
estratégia de otimização
- implantação híbridaModelos de negócios importantes (por exemplo, consulta de pedidos) são implantados localmente por meio do vLLM, e o Q&A genérico ainda usa APIs de nuvem
- mecanismo de cache: respostas de perguntas de HF armazenadas no Redis, definir TTL=1 hora para atualização automática
- balanceamento de cargaConfigurar caminhos alternativos de vários modelos em models.yaml, por exemplo, usar as APIs beanbag e Wisdom Spectrum Clear Speech
Pontos de implementação
- Monitore o uso de recursos do contêiner por meio do docker stats e ajuste o limite de recursos do docker-compose.dev.yml
- Indexação hierárquica de documentos de base de conhecimento e recuperação acelerada por GPU de vetores correspondentes a problemas de alta frequência.
- Configuração do mecanismo de failover: alternar automaticamente para o modelo de espera quando o modelo primário atingir o tempo limite de 2 segundos
Depois que uma plataforma de comércio eletrônico adotou a solução acima, o tempo médio de resposta durante o período Double 11 ficou estável em 1,2 segundos
Essa resposta foi extraída do artigoYuxi-Know: uma plataforma inteligente de perguntas e respostas baseada em gráficos de conhecimentoO































