Grok-2: Modelo de linguagem grande de especialista híbrido de código aberto da xAI
Grok-2 是由埃隆·马斯克的 xAI 公司于 2024 年开发的第二代大语言模型。该模型的一大特点是采用了“混合专家(Mixture-of-Experts, MoE)”架构,这种设计可以更高效地处理信息。简单来说,模型内部有多个“专家”...
Seed-OSS: Modelo de linguagem grande de código aberto para raciocínio de contexto longo e aplicativos versáteis
O Seed-OSS é uma série de grandes modelos de linguagem de código aberto desenvolvidos pela equipe do Seed na ByteDance, com foco no processamento de contextos longos, recursos de raciocínio e otimização de tarefas de agentes. Os modelos contêm 36 bilhões de parâmetros, são treinados com apenas 12 trilhões de tokens, apresentam bom desempenho em vários benchmarks convencionais e suportam ......
DeepSeek-V3.1-Base: um modelo de linguagem em grande escala para o processamento eficiente de tarefas complexas
O DeepSeek-V3.1-Base é um modelo de linguagem grande de código aberto desenvolvido pela DeepSeek e lançado na plataforma Hugging Face, projetado para tarefas de processamento de linguagem natural. Ele tem 685 bilhões de parâmetros, é compatível com vários tipos de dados (BF16, F8_E4M3, F32) e pode...
GPT-OSS: Grande modelo de código aberto da OpenAI para raciocínio eficiente
O GPT-OSS é uma família de modelos de linguagem de código aberto da OpenAI, incluindo o gpt-oss-120b e o gpt-oss-20b, com 117 bilhões e 210 bilhões de parâmetros, respectivamente, licenciados sob a licença Apache 2.0, que permite aos desenvolvedores baixá-los, modificá-los e implantá-los gratuitamente. gpt-oss...
GLM-4.5: grandes modelos multimodais de código aberto que suportam raciocínio inteligente e geração de código
O GLM-4.5 é um modelo multimodal de grande linguagem de código aberto desenvolvido pela zai-org, projetado para raciocínio inteligente, geração de código e tarefas corporais inteligentes. Ele contém o GLM-4.5 (355 bilhões de parâmetros, 32 bilhões de parâmetros ativos), o GLM-4.5-Air (106 bilhões de parâmetros, 12 bilhões de parâmetros ativos) e vários outros...
Qwen3-235B-A22B-Thinking-2507: um modelo de linguagem grande para apoiar o raciocínio complexo
O Qwen3-235B-A22B-Thinking-2507 é um modelo de linguagem em grande escala desenvolvido pela equipe do Alibaba Cloud Qwen, lançado em 25 de julho de 2025 e hospedado na plataforma Hugging Face. Ele se concentra em tarefas de raciocínio complexas e suporta até 256K (262.144) tokens...
dots.llm1: o primeiro modelo de idioma grande do MoE com código aberto da Little Red Book
rednote-hilab/dots.llm1.base é o primeiro grande modelo de linguagem dots.llm1 de código aberto da Little Red Book e hospedado na plataforma Hugging Face. O modelo adota a arquitetura Mixed Expert (MoE) com 142 bilhões de parâmetros, e apenas 14 bilhões de parâmetros são ativados durante a inferência, equilibrando alto desempenho e baixo custo. d...
Jan-nano: um modelo leve e eficiente para geração de texto
O Jan-nano é um modelo de linguagem de 4 bilhões de parâmetros otimizado na arquitetura Qwen3, desenvolvido pela Menlo Research e hospedado na plataforma Hugging Face. Ele foi projetado para geração eficiente de texto, combinando tamanho pequeno e recursos de processamento de contexto longo para ambientes locais ou incorporados. O modelo é compatível com...
NextCoder-32B: um grande modelo de código aberto para dar suporte à edição e otimização de código
O NextCoder-32B é um grande modelo editorial de código aberto desenvolvido pela Microsoft e lançado na plataforma Hugging Face. Ele se baseia no modelo Qwen2.5, otimizado pela tecnologia SeleKT (Selective Knowledge Transfer, transferência seletiva de conhecimento), e foi projetado para geração de código,...
DeepSeek-TNG-R1T2-Chimera: Aprimoramentos do DeepSeek lançados pela TNG Alemanha
O DeepSeek-TNG-R1T2-Chimera é um modelo de linguagem grande de código aberto desenvolvido pela TNG Technology Consulting GmbH e hospedado na plataforma Hugging Face. O modelo foi lançado em 2 de julho de 2025 e faz parte do projeto D...
ERNIE 4.5
O ERNIE 4.5 é uma grande família de modelos de código aberto desenvolvida pela Baidu com base na estrutura PaddlePaddle, abrangendo uma ampla gama de modelos de 0,3B a 424B parâmetros, suportando processamento de texto, geração de imagens e tarefas multimodais. O projeto está hospedado no GitHub, combinado com o Hugging Face para fornecer modelos ...
Hunyuan-A13B: modelos eficientes de linguagem grande de código aberto para contextos ultralongos e raciocínio inteligente
O Hunyuan-A13B é um modelo de linguagem grande de código aberto desenvolvido pela equipe híbrida da Tencent, com base no projeto de arquitetura Mixed Expert (MoE). O modelo tem 8 bilhões de parâmetros, dos quais 1,3 bilhão são parâmetros ativos, levando em conta o alto desempenho e o baixo custo computacional. O Hunyuan-A13B suporta processamento de contexto ultralongo de 256K, adequado para...
Lançamento do Qwen3: uma nova geração de modelos de Big Language para pensar profundamente e responder rapidamente
O campo dos modelos de linguagem de grande porte tem um novo membro. Recentemente, a família Qwen de grandes modelos de linguagem lançou sua versão mais recente, o Qwen3. De acordo com a equipe de desenvolvimento, seu principal modelo, o Qwen3-235B-A22B, demonstrou ser comparável ao DeepSeek-R1 , o1 , o3 em benchmarks de codificação, matemática e capacidade de uso geral...
voltar ao topo