Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O tamanho e a qualidade dos dados de treinamento da Qwen3 criam uma vantagem cognitiva

2025-08-24 1.5 K
Link diretoVisualização móvel
qrcode

Efeitos de escala das inovações em engenharia de dados

O Qwen3 tem 36 trilhões de tokens de dados de pré-treinamento, o dobro do seu antecessor Qwen2.5, abrangendo conteúdo de alta qualidade, como STEM, programação e artigos acadêmicos. O relatório técnico revela que a construção dos dados consiste em três fases principais: treinamento básico com contextos de 4K (30 trilhões de tokens), otimização de dados com uso intensivo de conhecimento (5 trilhões de tokens) e treinamento estendido com contextos longos de 32K-128K. As fontes de dados incluem análise de documentos PDF (precisão de 92,3%) e dados sintéticos gerados pela família de modelos Qwen2.5, além de páginas genéricas da Web.

As medidas de aprimoramento da qualidade incluem:

  • Otimização da extração de texto multimodal usando o modelo Qwen2.5-VL
  • Geração de milhões de exemplos de raciocínio matemático com o Qwen2.5-Math
  • Aprimoramento da diversidade de dados de código com base no codificador Qwen2.5
  • Implementação de um mecanismo de filtragem de segurança de conteúdo em cinco níveis

Os testes de benchmark mostram que o modelo básico Qwen3-32B supera a versão Qwen2.5-72B em análises profissionais, como MATH e HumanEval, validando o impacto decisivo da qualidade dos dados na capacidade do modelo. Essa vantagem dos dados permite que até mesmo modelos de pequena escala (por exemplo, 4B parâmetros) lidem com tarefas que tradicionalmente exigem modelos de 70B parâmetros.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Novos lançamentos

voltar ao topo

pt_BRPortuguês do Brasil