Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O modelo alcança um equilíbrio ideal entre a qualidade da geração e a eficiência do treinamento por meio do algoritmo MGRPO

2025-09-05 2.2 K

Metodologia inovadora de treinamento

O algoritmo MGRPO (Multi-Grade Reinforcement Preference Optimisation) é a principal técnica para que o modelo atinja um desempenho revolucionário, que é obtido por meio de quatro estágios de treinamento: 1) o estágio de pré-treinamento da habilidade básica usa uma estratégia de aprendizado de curso para aumentar gradualmente a complexidade do texto; 2) o estágio de ajuste fino conjunto multitarefa sincroniza a otimização das seis categorias de habilidades, como diálogo, composição e inferência; 3) o estágio de treinamento contraditório introduz um discriminador de qualidade para filtrar a geração de baixa qualidade; e 4 ) fase de alinhamento de preferências humanas usando RLHF para reforçar os resultados que atendem às expectativas. Embora a única rodada de treinamento leve 351 TP3T a mais do que o método tradicional, o modelo final atinge 82,7 na métrica Rouge-L, que é 11,2 pontos mais alta do que o método RLHF padrão.

Os dados empíricos mostram que 1) o modelo alcança uma pontuação de relevância de resposta de 4,5/5 ao lidar com perguntas abertas; 2) ele pode manter mais de 20 rodadas de diálogo efetivo em cenários de interpretação de papéis; e 3) ele supera o modelo GPT-3.5-turbo na avaliação da coerência do enredo em tarefas de criação literária. Essas vantagens fazem dele o modelo de código aberto mais adequado para o trabalho criativo chinês no atual nível 7B.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo