Avanços no desempenho com a otimização do PPO
A equipe do Seed-X ajustou profundamente o modelo de instrução de base com o algoritmo de otimização de política proximal (PPO) no aprendizado por reforço, resultando em uma versão do Seed-X-PPO-7B que supera significativamente o Seed-X-Instruct-7B em várias métricas. Os dados de teste mostram que, no conjunto de testes WMT2023, a versão PPO melhora o valor BLEU da tradução chinês-inglês em 15,21 TP3T e a precisão da terminologia em 22,71 TP3T, o que é especialmente vantajoso ao lidar com idiomas com poucos recursos (por exemplo, kiswahili).
Esse aprimoramento decorre da otimização contínua das estratégias de tradução pelo algoritmo PPO: o modelo recebe recompensas de feedback instantâneas em várias dimensões, incluindo fluência, fidelidade, precisão terminológica etc., e aprende as estratégias de tradução ideais por meio de várias rodadas de iterações. Por exemplo, na tradução de descrições de produtos de comércio eletrônico, a versão PPO é capaz de manter melhor a conversão precisa das especificações (por exemplo, número do óleo de motor '5W-40') e, ao mesmo tempo, lidar razoavelmente com expressões culturalmente específicas (por exemplo, 'data de validade' corresponde à expressão habitual de cada país). (por exemplo, "data de validade" corresponde à expressão habitual de cada país).
A equipe recomenda que os ambientes de produção priorizem a versão PPO, cujos pesos de modelo e código de inferência podem ser acessados diretamente por meio do hub Hugging Face e implantados de forma totalmente compatível com a versão básica.
Essa resposta foi extraída do artigoSeed-X-7B: um grande modelo para tradução multilíngue eficienteO