Posição atual:fig. início " Respostas da IA

A versão otimizada de aprendizado por reforço do Seed-X-7B supera o modelo de instrução básico em desempenho de tradução

2025-08-20

268

Avanços no desempenho com a otimização do PPO

A equipe do Seed-X ajustou profundamente o modelo de instrução de base com o algoritmo de otimização de política proximal (PPO) no aprendizado por reforço, resultando em uma versão do Seed-X-PPO-7B que supera significativamente o Seed-X-Instruct-7B em várias métricas. Os dados de teste mostram que, no conjunto de testes WMT2023, a versão PPO melhora o valor BLEU da tradução chinês-inglês em 15,21 TP3T e a precisão da terminologia em 22,71 TP3T, o que é especialmente vantajoso ao lidar com idiomas com poucos recursos (por exemplo, kiswahili).

Esse aprimoramento decorre da otimização contínua das estratégias de tradução pelo algoritmo PPO: o modelo recebe recompensas de feedback instantâneas em várias dimensões, incluindo fluência, fidelidade, precisão terminológica etc., e aprende as estratégias de tradução ideais por meio de várias rodadas de iterações. Por exemplo, na tradução de descrições de produtos de comércio eletrônico, a versão PPO é capaz de manter melhor a conversão precisa das especificações (por exemplo, número do óleo de motor '5W-40') e, ao mesmo tempo, lidar razoavelmente com expressões culturalmente específicas (por exemplo, 'data de validade' corresponde à expressão habitual de cada país). (por exemplo, "data de validade" corresponde à expressão habitual de cada país).

A equipe recomenda que os ambientes de produção priorizem a versão PPO, cujos pesos de modelo e código de inferência podem ser acessados diretamente por meio do hub Hugging Face e implantados de forma totalmente compatível com a versão básica.

Essa resposta foi extraída do artigoSeed-X-7B: um grande modelo para tradução multilíngue eficienteO

A versão otimizada de aprendizado por reforço do Seed-X-7B supera o modelo de instrução básico em desempenho de tradução

Avanços no desempenho com a otimização do PPO

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

A versão otimizada de aprendizado por reforço do Seed-X-7B supera o modelo de instrução básico em desempenho de tradução

Avanços no desempenho com a otimização do PPO

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida