Todo o processo de construção da base de conhecimento
- Pré-processamento de dadosConverta documentos PDF/Word para o formato JSON (cada entrada contém campos de entidade e descrição)
- Conversão para quantitativo: Executar
generate_kb_embeddings.py
Scripts com modelos incorporados opcionais, como OpenAI ou MiniLM - aprimoramento da modelagem: através de
integrate.py
Injeção de arquivos vetoriais *.npy em modelos básicos, como o Llama - atualização dinâmica (Internet)Gerar novamente os vetores depois de modificar o JSON de origem, realizar a integração incremental (não é necessário um novo treinamento completo)
Configuração de parâmetros-chave
- Dimensão de incorporação: padrão de 768 dimensões (precisa estar alinhada com a camada oculta do modelo básico)
- Tamanho do lote: -O parâmetro B pode ser ajustado para baixo quando não houver memória de vídeo suficiente
- Limite de similaridade: controla o grau de rigor com que o conhecimento é ativado (regulado por -threshold)
melhores práticas
Recomenda-se que o documento seja primeiramenteExtração físicaresponder cantandodesduplicaçãoO exemplo oficial da Microsoft mostra que uma base de conhecimento estruturada pode melhorar a precisão das perguntas e respostas em 42%. Para documentos chineses, é necessária uma configuração adicional da ferramenta de segmentação de palavras.
Essa resposta foi extraída do artigoKBLaM: uma ferramenta aprimorada de código aberto para incorporar conhecimento externo em modelos grandesO