O dsRAG obtém melhorias revolucionárias na eficácia da recuperação por meio da seguinte metodologia:
1. segmentação semântica
O LLM analisa a estrutura semântica dos documentos e divide conteúdos extensos em parágrafos lógicos. Ao lidar com contratos legais, por exemplo, o sistema identifica unidades estruturais, como "cláusulas de definição" e "cláusulas de obrigação", permitindo que pesquisas subsequentes identifiquem as seções relevantes.
2. geração automática de contexto
Gerar dinamicamente metadados para cada bloco de texto contendo os seguintes elementos:
- Título do documento e caminho da seção
- Resumo dos parágrafos anteriores e posteriores
- Marcação de palavras-chave de campo
Essa incorporação aprimorada permite que a pesquisa de similaridade compreenda as associações contextuais.
3. extração de segmentos relevantes
As consultas são processadas em dois estágios:
- Recupere primeiro os segmentos de texto mais relevantes
- e, em seguida, encontra automaticamente parágrafos vizinhos semanticamente relacionados.
Com essa extensão adaptável, os resultados finais retornados permanecem focados e com contexto completo. Os experimentos mostram que esse método resulta em uma melhoria de 411 TP3T na precisão de tarefas de questionários longos.
Essa resposta foi extraída do artigodsRAG: um mecanismo de recuperação para dados não estruturados e consultas complexasO




























