Criação de um loop fechado de aprendizado por reforço de feedback humano
A Aivilization projetou um sistema de coleta de dados em três níveis:
- nível de intervenção ativaO usuário modifica a decisão do organismo inteligente (por exemplo, redefinindo a prioridade da tarefa) diretamente pelo console, e o sistema registra a diferença no estado antes e depois da modificação como uma amostra de comparação
- Camada de avaliação comportamentalAciona uma interface de pontuação de 5 níveis (de "completamente errado" a "solução ideal") após a inteligência ter concluído uma tarefa complexa, solicitando ao usuário que marque pontos específicos para aprimoramento
- nível de consenso socialQuando vários usuários fazem correções semelhantes em comportamentos semelhantes, o sistema aumenta automaticamente o peso desse feedback, criando uma destilação de inteligência de grupo
Práticas recomendadas: 1) Use a "função de anotação" para justificar as alterações no momento da intervenção 2) Priorize a participação nas anotações da plataformaCenários de missão de alto valor(Tarefas que mostram sinalizadores de coleta de dados) 3) Verifique regularmente o quadro Kanban de Contribuições para ver como o feedback que você forneceu foi aplicado às atualizações do modelo.
Essa resposta foi extraída do artigoAivilization: um sandbox de simulação social que explora a coexistência de humanos e IAsO































