Metodologia inovadora de treinamento
O algoritmo MGRPO (Multi-Grade Reinforcement Preference Optimisation) é a principal técnica para que o modelo atinja um desempenho revolucionário, que é obtido por meio de quatro estágios de treinamento: 1) o estágio de pré-treinamento da habilidade básica usa uma estratégia de aprendizado de curso para aumentar gradualmente a complexidade do texto; 2) o estágio de ajuste fino conjunto multitarefa sincroniza a otimização das seis categorias de habilidades, como diálogo, composição e inferência; 3) o estágio de treinamento contraditório introduz um discriminador de qualidade para filtrar a geração de baixa qualidade; e 4 ) fase de alinhamento de preferências humanas usando RLHF para reforçar os resultados que atendem às expectativas. Embora a única rodada de treinamento leve 351 TP3T a mais do que o método tradicional, o modelo final atinge 82,7 na métrica Rouge-L, que é 11,2 pontos mais alta do que o método RLHF padrão.
Os dados empíricos mostram que 1) o modelo alcança uma pontuação de relevância de resposta de 4,5/5 ao lidar com perguntas abertas; 2) ele pode manter mais de 20 rodadas de diálogo efetivo em cenários de interpretação de papéis; e 3) ele supera o modelo GPT-3.5-turbo na avaliação da coerência do enredo em tarefas de criação literária. Essas vantagens fazem dele o modelo de código aberto mais adequado para o trabalho criativo chinês no atual nível 7B.
Essa resposta foi extraída do artigoTifa-DeepsexV2-7b-MGRPO: um modelo que oferece suporte à interpretação de papéis e a diálogos complexos, com desempenho superior a 32b (com instalador de um clique)O































