Desafios de desempenho
Há atrasos significativos no processamento de documentos longos usando diretamente o LLM. Os testes mostram que são necessários 15 minutos para processar 450.000 caracteres, o que é difícil de atender às demandas dos ambientes de produção.
Estratégia de otimização do zChunk
- Otimização de inferência localChamada do modelo completo somente quando os limites semânticos não estiverem claros
- amostragem de logprobs: por meio de um limite de probabilidade (
--threshold=0.7) Evitar a contagem dupla - pipeline paraleloUtilização
RayEstrutura para processamento paralelo de vários documentos
Programa acelerado
- Nível de hardware: a placa de vídeo A100 é recomendada e está ativada
--fp16paradigma - Nível de código: 1) Ativar
--use_kv_cacheReduzir a contagem dupla 2) Configuração--batch_size=8 - Nível de arquitetura: para documentos com mais de 100.000 caracteres, recomenda-se usar primeiro o pré-particionamento do NaiveChunk.
Os testes mostram que o tempo de processamento otimizado de 450 mil caracteres pode ser reduzido para menos de 3 minutos
Essa resposta foi extraída do artigozChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70BO































