Recursos revolucionários de processamento em vários idiomas e aplicativos globalizados
O suporte a idiomas do Qwen3 atinge 119 idiomas e dialetos, líder do setor, cobrindo uma base global de usuários da Internet de 98%. Sua matriz de idiomas não contém apenas os principais idiomas (por exemplo, inglês-chinês-francês-alemão), mas também um grande número de idiomas de recursos escassos (por exemplo, bashkir, papiamento etc.). A documentação técnica mostra que o recurso se origina de 36 trilhões de tokens de dados de pré-treinamento em supergrande escala, dos quais a proporção de dados que não são em inglês chega a 45%, muito mais do que a média do setor de 20-30%.
Para o mecanismo de implementação, a equipe adota uma inovação tripla: limpeza de dados multimodais com base no Qwen 2.5-VL, otimização do espaço de incorporação específico do idioma e técnicas de expansão léxica dinâmica. Particularmente no processamento de dialetos (por exemplo, sete variantes de dialetos do árabe), o modelo alcança a intercompreensão de dialetos por meio do aprendizado de representação em nível de fonema. Os dados de teste mostram que o Qwen3 supera o GPT-4 no benchmark FLORES-200 em 15 pontos percentuais na qualidade da tradução para idiomas pequenos.
Esse recurso traz avanços no comércio internacional, na criação de conteúdo multilíngue e em outros cenários, como a geração automática de textos de marketing que atendam aos hábitos culturais regionais. Foi relatado que o modelo foi aplicado como piloto no sistema de processamento de documentos multilíngues das Nações Unidas, com uma taxa de precisão de 92%.
Essa resposta foi extraída do artigoLançamento do Qwen3: uma nova geração de modelos de Big Language para pensar profundamente e responder rapidamenteO