Implementação técnica de recursos multilíngues
Substituição do Qwen3119 idiomas e dialetosdesempenho revolucionário em:
- Cobertura total do idiomaInclui as principais famílias de idiomas, como o indo-europeu (67), o sino-tibetano (3), o sul-irlandês (12) e até idiomas com poucos recursos, como o luxemburguês e o assamês.
- subdivisão dialetalÁrabe: o árabe oferece suporte a 7 variantes dialetais de najdi/egípcio/marroquino etc.
- código híbridoCaracteres CJK: lida com eficácia com a entrada mista de caracteres CJK chineses/japoneses/coreanos e letras latinas.
Três inovações nas estratégias de dados de treinamento:
- Multiplicação de volumes de dadosToken de pré-treinamento atinge 36 trilhões (2x Qwen 2.5), com compartilhamento de dados não ingleses aumentado para 45%
- Limpeza multimodalUse o Qwen2.5-VL para extrair texto de PDFs e outros documentos e adicione-o ao treinamento após a filtragem de qualidade.
- Aprimoramento de dados sintéticosGeração de dados estruturados, como soluções de código, derivações matemáticas, etc. com o Qwen2.5-Math/Coder
O pré-treinamento em três fases, com a fase S2 dedicada a aumentar a proporção de dados de conhecimento intensivo e a fase S3 reforçando a compreensão contextual em idiomas de poucos recursos por meio do ajuste fino de textos longos, permitiu que o Qwen3 atingisse o nível GPT-3.5 na tarefa de idiomas pequenos.
Essa resposta foi extraída do artigoLançamento do Qwen3: uma nova geração de modelos de Big Language para pensar profundamente e responder rapidamenteO