Histórico da questão
O design modular e o rigoroso processo de avaliação do Rankify melhoram consideravelmente o problema da "ilusão" que os sistemas de geração aprimorada por recuperação (RAG) geralmente enfrentam quando o conteúdo gerado não corresponde ao documento recuperado.
Etapas de implementação
- Preparação de dados::
- Selecione conjuntos de dados adequados ao domínio:
Dataset("nq-dev").download() - O pré-processamento de documentos garante uma formatação consistente
- Selecione conjuntos de dados adequados ao domínio:
- portfólio de tecnologia::
- Pesquisa semântica usando o Contriever (evitando limitações de palavras-chave)
- Reordenação contextual usando o RankGPT (considerando associações entre documentos)
- Configure o gerador LLaMA-3:
Generator("meta-llama/Llama-3.1-8B")
- Otimização da avaliação::
- adoção
metrics.calculate_generation_metrics()Cálculo dos escores EM - aprovar (um projeto de lei ou inspeção etc.)
n_docsNúmero de documentos de referência para ajuste de parâmetros (5 a 10 recomendados)
- adoção
melhores práticas
As medições empíricas mostram que o esquema trifásico que combina a pesquisa ColBERT + reordenação MonoT5 + geração GPT-4 pode atingir uma precisão de 78,31 TP3T no conjunto de dados HotPotQA, que é 221 TP3T maior do que a linha de base.
Essa resposta foi extraída do artigoRankify: um kit de ferramentas Python que oferece suporte à recuperação e reordenação de informaçõesO































