Um esquema de otimização para sistemas de pesquisa semântica acadêmica
Para cenários de pesquisa acadêmica, Vespa.ai oferece as seguintes estratégias de otimização de pesquisa semântica:
- caracterização multivetorialVetores de título: suporta um único artigo contendo vetores de título, vetores de resumo e vetores de texto completo ao mesmo tempo, capturando a semântica em diferentes níveis de granularidade
- Arquitetura de pesquisa híbridaCombinação da tradicional pesquisa de palavras-chave BM25 com o mais recente cálculo de similaridade vetorial
- Otimização do ajuste fino resultanteRecursos estruturados, como número de citações, ano de publicação, etc., podem ser adicionados para aumentar a relevância dos resultados.
Programas de implementação específicos:
- A fase de processamento de dados da tese usa modelos especializados, como o SciBERT, para gerar vetores de relevância de domínio
- Defina campos multivetoriais ao configurar o esquema, por exemplo:
"fields": [
{ "name": "title_embedding", "type": "tensor(d[768])" },
{ "name": "abstract_embedding", "type": "tensor(d[768])" }
] - Projetando consultas híbridas YQL:
"yql": "select * from papers where (userQuery() OR nearestNeighbor(title_embedding, query_embedding)) AND year > 2018"
Validação da eficácia: no teste do conjunto de dados de pesquisa da COVID-19, esse esquema melhora a recuperação de artigos relevantes em 45%, o que é particularmente adequado para pesquisas bibliográficas em campos emergentes.
Essa resposta foi extraída do artigoVespa.ai: uma plataforma de código aberto para criar sistemas eficientes de pesquisa e recomendação de IAO































