Comparação metodológica
Embora o aprendizado supervisionado tradicional exija uma grande quantidade de dados anotados (anotações de seleção de ferramentas e anotações de trajetórias de execução), a solução de RL da ReCall otimiza automaticamente a estratégia por meio de sinais de recompensa e tem três vantagens principais:
- Melhoria da eficiência dos dadosCustos de etiquetagem reduzidos para 90% e superiores
- Capacidade aprimorada de exploraçãoModelos podem descobrir caminhos de otimização humanos não rotulados
- Capacidade adaptativa dinâmicaAdaptação em tempo real a novas ferramentas e mudanças de cenário
Realização tecnológica das vantagens
Especificamente:
1)Projeto de recompensa em níveisDesign de funções de recompensa para seleção de ferramentas, geração de parâmetros e validação de resultados, respectivamente
2)Mecanismos de aprendizado do cursoTransição gradual de tarefas simples para conjuntos de ferramentas complexas
3)Treinamento híbrido off-line e on-lineCombinação de dados históricos e interações em tempo real para otimização de estratégias
Verificação dos resultados reais
Na avaliação do FlashRAG, em comparação com a abordagem de aprendizado supervisionado, o esquema de RL melhora a taxa de sucesso na tarefa de teste de vários saltos em 271 TP3T e reduz a taxa de erro de chamada de ferramenta em 421 TP3T, especialmente ao lidar com combinações de ferramentas não vistas.
Essa resposta foi extraída do artigoReCall: treinamento de modelos grandes para inferência de chamadas de ferramentas por meio do aprendizado por reforçoO




























