Estratégias intensivas de design de recompensas
Para resolver o problema da escassez de recompensas em diálogos de várias rodadas, o Verifiers propõePrograma de design de incentivos em fases::
- incentivo ao processo: através de
MultiTurnEnv(usado em uma expressão nominal)env_responseretorna a recompensa intermediária - verificação gramatical: em
RubricConfigure a validação do formato JSON e outros incentivos básicos no - Programa de estudos: comece com
SingleTurnEnvTreinar habilidades básicas antes de migrar para ambientes com várias rodadas
Implementação específica:
- definir
StepRewardIndicadores intermediários, como a coerência do diálogo computacional - fazer uso de
vf.RubricCombinação de várias funções de recompensa (recomenda-se um peso de recompensa do processo de 0,3 a 0,5) - aprovar (um projeto de lei ou inspeção etc.)
vf-evalFerramenta de linha de comando para monitorar a distribuição de recompensas em tempo real - Uso de mandatos de longo prazo
gamma=0.9O fator de desconto equilibra as recompensas imediatas/futuras
As experiências mostram que o método permite que o agente obtenha um sinal de aprendizado eficaz em 50 a 100 iterações.
Essa resposta foi extraída do artigoVerificadores: uma biblioteca de ferramentas de ambiente de aprendizagem por reforço para treinamento de modelos de linguagem de grande porteO































