O Werewolfing como estrutura de avaliação tem três dimensões de vantagem sobre os métodos de teste tradicionais:
- Teste de competência multidimensionalTeste simultâneo de geração de linguagem, raciocínio lógico, desenvolvimento de estratégias, jogos mentais e outras habilidades complexas
- Ambiente interativo dinâmicoO modelo precisa ajustar sua estratégia com base no feedback em tempo real de outros participantes, o que está mais próximo de cenários sociais reais.
- Altamente interpretávelA transcrição completa do diálogo permite uma análise visual das causas e consequências de cada decisão tomada pelo modelo.
Especificamente:
- O mecanismo de engano natural do jogo testa efetivamente a consistência factual do modelo
- Os requisitos de ocultação de identidade de função podem avaliar a profundidade da compreensão contextual dos modelos
- A sessão de votação reflete o julgamento abrangente do modelo
A equipe do OpenNumbers reforçou as dimensões de avaliação no design e tornou o desempenho do jogo quantificável por meio de um sistema de pontuação padronizado (por exemplo, "Precisão da detecção de mentiras", "Taxa de sucesso do disfarce de identidade" etc.). Esse tipo de avaliação pode revelar a capacidade real de modelos grandes em cenários complexos melhor do que um único teste de perguntas e respostas.
Essa resposta foi extraída do artigoVeja vários modelos grandes competirem em um jogo de raciocínio de lobisomem para testar quem tem as melhores habilidades de raciocínio!O





























