Guia de otimização da memória de processamento de documentos longos
O consumo de memória para contextos de 128K pode ser significativamente reduzido:
- Ativação do cache de contextoEvite a contagem dupla do mesmo conteúdo, definido após a primeira carga
cache_context=TrueParâmetros:model.chat(tokenizer, '总结上一段的核心观点', cache_context=True) - Tecnologia de segmentaçãoUse uma política de janela deslizante para documentos muito longos:
- Dividir PDF por capítulo com o PyMuPDF (≤32K tokens por parágrafo)
- fazer uso de
yarnTécnicas de extensão para manter vínculos entre parágrafos - Solicitação final dos resultados da análise de integração de modelos
- Otimização em nível de hardware::
- Suporte para processamento dinâmico em lote usando o mecanismo de inferência vLLM
- A ativação do FlashAttention-2 acelera a computação de atenção
- configurar
--limit-mm-per-prompt '{"text":64}'Limite os picos de memória
Caso de teste: ao processar 100 páginas de contratos jurídicos, a estratégia de segmentação pode reduzir o consumo de memória de 48 GB para 22 GB. Recomendamos a combinação de quantificação GLM-4.5-Air + INT4, que pode concluir a análise de documentos de milhões de palavras em um dispositivo de memória de 16 GB.
Essa resposta foi extraída do artigoGLM-4.5: grandes modelos multimodais de código aberto que suportam raciocínio inteligente e geração de códigoO































