Mecanismos de otimização adaptativa
Esse recurso implementa uma otimização exclusiva de três estágios com base na abordagem Policy Gradient para aprendizagem por reforço:
- Fase de avaliação inicialPontuação da qualidade dos resultados de pesquisa por meio de um modelo de recompensa pré-treinado (intervalo de 0 a 1)
- fase de ajuste da estratégiaAcionamento do módulo de reconstrução da consulta quando a pontuação de confiança for <0,7, possivelmente:
- Expandir/reduzir o escopo da pesquisa (por exemplo, "IA médica" → "diagnóstico assistido por IA")
- Adicionar qualificadores (adicionar filtros de tempo, geografia, etc.)
- Mudança de tipos de fontes de dados (de notícias para bancos de dados acadêmicos)
- fase de validação finalAs estratégias ajustadas precisam gerar sinais de recompensa significativamente maiores para serem incluídas no conjunto de estratégias de longo prazo.
O principal avanço tecnológico está na expansão do espaço de ação discreto da RL tradicional para um espaço de estratégia contínuo que inclui a compreensão semântica, o que aproxima o processo de ajuste do modo de pensamento do pesquisador humano.
Essa resposta foi extraída do artigoDeepResearcher: IA de condução baseada em aprendizado por reforço para estudar problemas complexosO