O XRAG constrói a matriz de avaliação RAG mais completa do momento, que contém três camadas: a camada de indicador tradicional (MRR, recall), a camada de análise aprofundada (mapa de calor da distribuição dos resultados de recuperação) e a camada de avaliação inteligente LLM (detecção de alucinação de resposta). Em comparação com as ferramentas de teste de dimensão única, ele adota de forma inovadora técnicas antagônicas de injeção de amostras (por exemplo, misturar intencionalmente segmentos errados) para avaliar quantitativamente a capacidade anti-interferência do sistema. No teste de benchmark HotpotQA, o XRAG identifica que a configuração tradicional de "pontuação alta" do 38% tem, na verdade, sérios equívocos contextuais. A ferramenta também pode visualizar as falhas de desempenho de diferentes estratégias de recuperação (densa vs. esparsa) em diferentes complexidades de problemas, fornecendo suporte de dados para o ajuste em nível de módulo.
Essa resposta foi extraída do artigoXRAG: uma ferramenta de avaliação visual para otimizar os sistemas de geração de aprimoramento de recuperaçãoO































