O Vespa.ai redefine o padrão em tempo real para sistemas de recomendação com uma arquitetura que comprime a recuperação de recursos e a inferência de modelos em uma latência de 10 milissegundos. O fluxo de trabalho do sistema consiste em três fases principais: filtragem rápida de conjuntos de candidatos por meio de um índice retroativo, carregamento de recursos comportamentais e de conteúdo do usuário e, por fim, milissegundos de inferência realizada por um modelo TensorFlow ou ONNX integrado, que foi demonstrado pelo Spotify para melhorar as atualizações de conteúdo recomendado de hora em hora para segundo, aprimorando drasticamente as experiências personalizadas.
Em termos de implementação técnica, a plataforma adota o modo de computação de memória para evitar gargalos de E/S de disco e trabalha com um mecanismo de divisão dinâmica para obter expansão horizontal. A função exclusiva de classificação hierárquica suporta o processamento em dois estágios de classificação grosseira e classificação fina, o que garante o efeito e controla o custo. No cenário de recomendação de notícias, o sistema pode refletir instantaneamente o feedback do clique do usuário; as plataformas de comércio eletrônico usam esse recurso para obter recomendações de produtos em tempo real do tipo "olhar e ver", e a taxa de conversão é mais alta do que o modo em lote em mais de 30%.
Essa resposta foi extraída do artigoVespa.ai: uma plataforma de código aberto para criar sistemas eficientes de pesquisa e recomendação de IAO































