dots.llm1 Vantagens do desempenho chinês e base técnica
Os dados de avaliação mostram que o dots.llm1 tem uma pontuação média de 91,3 no teste chinês, superando significativamente os modelos das séries DeepSeek V2/V3 e Ali Qwen2.5. Essa vantagem decorre de três elementos técnicos importantes:
- Dados de treinamento: 11,2 trilhões de tokens de corpus não sintético de alta qualidade, rigorosamente selecionados por um pipeline de processamento de três estágios
- Suporte de contexto: 32.768 tokens de janela de contexto muito longa para processar documentos chineses longos
- Otimização da arquitetura: tokenizador e vocabulário chinês especialmente projetados para abranger mais de 951 cenários de expressão chinesaTP3T.
Testes práticos mostram que o modelo é 15-20% mais preciso do que modelos semelhantes em tarefas como processamento de textos antigos e geração de documentos técnicos. A equipe de Xiaohongshu adota uma estratégia dinâmica de aprendizado de curso para permitir que o modelo domine gradualmente os recursos profundos da gramática chinesa.
Essa resposta foi extraída do artigodots.llm1: o primeiro modelo de idioma grande do MoE com código aberto da Little Red BookO