Como evitar o problema de esparsidade da recompensa no treinamento de diálogo em várias rodadas?

2025-08-28

351

Link diretoVisualização móvel

Estratégias intensivas de design de recompensas

Para resolver o problema da escassez de recompensas em diálogos de várias rodadas, o Verifiers propõePrograma de design de incentivos em fases::

incentivo ao processo: através deMultiTurnEnv(usado em uma expressão nominal)env_responseretorna a recompensa intermediária
verificação gramatical: emRubricConfigure a validação do formato JSON e outros incentivos básicos no
Programa de estudos: comece comSingleTurnEnvTreinar habilidades básicas antes de migrar para ambientes com várias rodadas

Implementação específica:

definirStepRewardIndicadores intermediários, como a coerência do diálogo computacional
fazer uso devf.RubricCombinação de várias funções de recompensa (recomenda-se um peso de recompensa do processo de 0,3 a 0,5)
aprovar (um projeto de lei ou inspeção etc.)vf-evalFerramenta de linha de comando para monitorar a distribuição de recompensas em tempo real
Uso de mandatos de longo prazogamma=0.9O fator de desconto equilibra as recompensas imediatas/futuras

As experiências mostram que o método permite que o agente obtenha um sinal de aprendizado eficaz em 50 a 100 iterações.