数据处理全流程
PRAG的数据增强模块采用两级处理策略:
预增强模式
- 提供开箱即用的
data_aug.tar.gz
压缩包 - 包含Wikipedia等主流知识库的预处理结果
- 解压即可获得BM25索引和段落嵌入
自定义处理模式
- 原始数据获取:支持自动下载Wikipedia dump
- 段落分割:按语义单元切分文档
- vetorização:生成稠密检索所需的嵌入
Principais recursos técnicos
- 双重索引系统:同时维护稀疏(BM25)和稠密(DPR)索引
- filtro de ruído:自动去除低质量文本片段
- 负采样策略:采用困难负例挖掘提升训练效果
建议初次使用者从预增强数据开始,熟悉流程后再尝试自定义处理。
Essa resposta foi extraída do artigoPRAG: Parametric Retrieval Augmentation Generation Tool for Improving the Performance of Q&A Systems (Ferramenta de geração de aumento de recuperação paramétrica para melhorar o desempenho dos sistemas de perguntas e respostas)O