Posição atual:fig. início " Respostas da IA

O modelo alcança um equilíbrio ideal entre a qualidade da geração e a eficiência do treinamento por meio do algoritmo MGRPO

2025-09-05

2.2 K

Metodologia inovadora de treinamento

O algoritmo MGRPO (Multi-Grade Reinforcement Preference Optimisation) é a principal técnica para que o modelo atinja um desempenho revolucionário, que é obtido por meio de quatro estágios de treinamento: 1) o estágio de pré-treinamento da habilidade básica usa uma estratégia de aprendizado de curso para aumentar gradualmente a complexidade do texto; 2) o estágio de ajuste fino conjunto multitarefa sincroniza a otimização das seis categorias de habilidades, como diálogo, composição e inferência; 3) o estágio de treinamento contraditório introduz um discriminador de qualidade para filtrar a geração de baixa qualidade; e 4 ) fase de alinhamento de preferências humanas usando RLHF para reforçar os resultados que atendem às expectativas. Embora a única rodada de treinamento leve 351 TP3T a mais do que o método tradicional, o modelo final atinge 82,7 na métrica Rouge-L, que é 11,2 pontos mais alta do que o método RLHF padrão.

Os dados empíricos mostram que 1) o modelo alcança uma pontuação de relevância de resposta de 4,5/5 ao lidar com perguntas abertas; 2) ele pode manter mais de 20 rodadas de diálogo efetivo em cenários de interpretação de papéis; e 3) ele supera o modelo GPT-3.5-turbo na avaliação da coerência do enredo em tarefas de criação literária. Essas vantagens fazem dele o modelo de código aberto mais adequado para o trabalho criativo chinês no atual nível 7B.

Essa resposta foi extraída do artigoTifa-DeepsexV2-7b-MGRPO: um modelo que oferece suporte à interpretação de papéis e a diálogos complexos, com desempenho superior a 32b (com instalador de um clique)O

O modelo alcança um equilíbrio ideal entre a qualidade da geração e a eficiência do treinamento por meio do algoritmo MGRPO

Metodologia inovadora de treinamento

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

O modelo alcança um equilíbrio ideal entre a qualidade da geração e a eficiência do treinamento por meio do algoritmo MGRPO

Metodologia inovadora de treinamento

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida