Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Quais são os avanços específicos no suporte multilíngue do Qwen3? Quais são os recursos de sua estratégia de dados de treinamento?

2025-08-24 1.5 K
Link diretoVisualização móvel
qrcode

Implementação técnica de recursos multilíngues

Substituição do Qwen3119 idiomas e dialetosdesempenho revolucionário em:

  • Cobertura total do idiomaInclui as principais famílias de idiomas, como o indo-europeu (67), o sino-tibetano (3), o sul-irlandês (12) e até idiomas com poucos recursos, como o luxemburguês e o assamês.
  • subdivisão dialetalÁrabe: o árabe oferece suporte a 7 variantes dialetais de najdi/egípcio/marroquino etc.
  • código híbridoCaracteres CJK: lida com eficácia com a entrada mista de caracteres CJK chineses/japoneses/coreanos e letras latinas.

Três inovações nas estratégias de dados de treinamento:

  1. Multiplicação de volumes de dadosToken de pré-treinamento atinge 36 trilhões (2x Qwen 2.5), com compartilhamento de dados não ingleses aumentado para 45%
  2. Limpeza multimodalUse o Qwen2.5-VL para extrair texto de PDFs e outros documentos e adicione-o ao treinamento após a filtragem de qualidade.
  3. Aprimoramento de dados sintéticosGeração de dados estruturados, como soluções de código, derivações matemáticas, etc. com o Qwen2.5-Math/Coder

O pré-treinamento em três fases, com a fase S2 dedicada a aumentar a proporção de dados de conhecimento intensivo e a fase S3 reforçando a compreensão contextual em idiomas de poucos recursos por meio do ajuste fino de textos longos, permitiu que o Qwen3 atingisse o nível GPT-3.5 na tarefa de idiomas pequenos.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Novos lançamentos

voltar ao topo

pt_BRPortuguês do Brasil