DeepSeek-TNG-R1T2-Chimera: Aprimoramentos do DeepSeek lançados pela TNG Alemanha
O DeepSeek-TNG-R1T2-Chimera é um modelo de linguagem grande de código aberto desenvolvido pela TNG Technology Consulting GmbH e hospedado na plataforma Hugging Face. O modelo foi lançado em 2 de julho de 2025 e faz parte do projeto D...
ERNIE 4.5
O ERNIE 4.5 é uma grande família de modelos de código aberto desenvolvida pela Baidu com base na estrutura PaddlePaddle, abrangendo uma ampla gama de modelos de 0,3B a 424B parâmetros, suportando processamento de texto, geração de imagens e tarefas multimodais. O projeto está hospedado no GitHub, combinado com o Hugging Face para fornecer modelos ...
Hunyuan-A13B: modelos eficientes de linguagem grande de código aberto para contextos ultralongos e raciocínio inteligente
O Hunyuan-A13B é um modelo de linguagem grande de código aberto desenvolvido pela equipe híbrida da Tencent, com base no projeto de arquitetura Mixed Expert (MoE). O modelo tem 8 bilhões de parâmetros, dos quais 1,3 bilhão são parâmetros ativos, levando em conta o alto desempenho e o baixo custo computacional. O Hunyuan-A13B suporta processamento de contexto ultralongo de 256K, adequado para...
Lançamento do Qwen3: uma nova geração de modelos de Big Language para pensar profundamente e responder rapidamente
O campo dos modelos de linguagem de grande porte tem um novo membro. Recentemente, a família Qwen de grandes modelos de linguagem lançou sua versão mais recente, o Qwen3. De acordo com a equipe de desenvolvimento, seu principal modelo, o Qwen3-235B-A22B, demonstrou ser comparável ao DeepSeek-R1 , o1 , o3 em benchmarks de codificação, matemática e capacidade de uso geral...