O zChunk oferece três estratégias principais de fragmentação para atender a diferentes necessidades de processamento de documentos:
- NaiveChunk (chunking de tamanho fixo)::
- Princípio de operação: Segmentação mecânica de texto de acordo com um número predefinido de caracteres
- Cenário: documentos simples em um formato regular (por exemplo, arquivos de registro)
- Vantagens: velocidade de processamento rápida, baixo consumo de recursos - SemanticChunk (chunking de similaridade incorporado)::
- Como funciona: análise de agrupamento baseada em vetores de incorporação de texto
- Cenário: documentos comuns que precisam manter a integridade do parágrafo
- Benefícios: equilíbrio entre desempenho e coerência semântica - Algoritmo zChunk (chunking de dicas LLM)::
- Como funciona: usando o Llama-70B para gerar prompts segmentados inteligentes
- Cenário: documentos profissionais complexos (por exemplo, contratos legais)
- Vantagem: captura precisa de limites semânticos, suporte para adaptação dinâmica
Essas três estratégias podem ser alternadas livremente por meio do pipeline de ajuste de hiperparâmetros, e recomenda-se que os usuários atualizem gradualmente suas escolhas de estratégia com base na complexidade do documento.
Essa resposta foi extraída do artigozChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70BO