Como uma das principais inovações do dsRAG, a tecnologia de segmentação semântica usa um modelo de linguagem amplo para analisar e estruturar de forma inteligente o documento original. Diferentemente da fragmentação tradicional baseada em comprimento fixo ou regras simples, a tecnologia é capaz de identificar os limites semânticos do documento e dividir automaticamente o texto em parágrafos de acordo com a lógica do tópico. Ao lidar com documentos profissionais, como relatórios financeiros anuais, o sistema pode identificar com precisão os limites iniciais e finais de capítulos profissionais, como "Relatório da Diretoria" e "Notas às Demonstrações Financeiras". Essa segmentação baseada na compreensão semântica permite que o sistema de recuperação localize as informações de destino com mais precisão, evitando a quebra de contexto causada pelo método tradicional de segmentação mecânica. Os dados experimentais mostram que, no mesmo conjunto de testes, a segmentação semântica pode melhorar a pontuação de relevância dos resultados de recuperação em 581 TP3T e reduzir a taxa de detecção falsa em 721 TP3T, o que pode ser usado para formar um processamento de loop fechado com o módulo de geração de contexto subsequente para construir conjuntamente um sistema de representação hierárquica de documentos.
Essa resposta foi extraída do artigodsRAG: um mecanismo de recuperação para dados não estruturados e consultas complexasO




























