Pontos problemáticos do cenário
Os contratos financeiros contêm um grande número de cláusulas com referências cruzadas, e os métodos tradicionais resultam em 561 TP3T de informações importantes dispersas em diferentes partes. Os testes em um banco mostraram que isso resultou em 321 TP3T de omissões na recuperação de cláusulas de inadimplência.
Programa Especial zChunk
- adaptação do domínioLlama: Carrega uma versão aperfeiçoada do Llama em finanças (
--model=finance_llama
) - Garantia de continuidade das provisões: Configurações
--min_clause_length=200
Evitar o rompimento de termos completos - proteção de referência cruzada: Habilitar
--preserve_reference=True
Reconhecimento automático de padrões "cf. artigo X"
Memorando de implementação
1) Preparação de amostras rotuladas: pelo menos 50 contratos rotulados
2) Realizar treinamento de adaptação de domínio:python finetune.py --domain=finance
3) Recomendações para a implementação na produção:
- fazer uso deSlidingWindowChunker
Manuseio de cabeçalhos e rodapés
- configurar--importance_weighting=1.5
Atualização da prioridade das cláusulas de inadimplência
Essa resposta foi extraída do artigozChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70BO