Grok-2:xAI 公司开源的混合专家大语言模型
Grok-2 是由埃隆·马斯克的 xAI 公司于 2024 年开发的第二代大语言模型。该模型的一大特点是采用了“混合专家(Mixture-of-Experts, MoE)”架构,这种设计可以更高效地处理信息。简单来说,模型内部有多个“专家”...
Seed-OSS:开源大语言模型,支持长上下文推理与多功能应用
Seed-OSS 是由字节跳动(ByteDance)Seed 团队开发的一系列开源大语言模型,专注于长上下文处理、推理能力和代理任务优化。模型包含 360 亿参数,仅用 12 万亿 token 训练,性能在多个主流基准测试中表现出色,支.....
DeepSeek-V3.1-Base:高效处理复杂任务的大规模语言模型
DeepSeek-V3.1-Base 是由 DeepSeek 开发并在 Hugging Face 平台上发布的一个开源大语言模型,专为自然语言处理任务设计。它拥有 6850 亿个参数,支持多种数据类型(BF16、F8_E4M3、F32),能...
GPT-OSS:OpenAI开源的高效推理大模型
GPT-OSS 是 OpenAI 推出的开源语言模型系列,包括 gpt-oss-120b 和 gpt-oss-20b,分别拥有 1170 亿和 210 亿参数,采用 Apache 2.0 许可,允许开发者免费下载、修改和部署。gpt-oss...
GLM-4.5:开源多模态大模型支持智能推理与代码生成
GLM-4.5 是 zai-org 开发的一款开源多模态大语言模型,专为智能推理、代码生成和智能体任务设计。它包含 GLM-4.5(3550 亿参数,320 亿活跃参数)、GLM-4.5-Air(1060 亿参数,120 亿活跃参数)等多个...
Qwen3-235B-A22B-Thinking-2507:支持复杂推理的大型语言模型
Qwen3-235B-A22B-Thinking-2507 是由阿里巴巴云 Qwen 团队开发的大型语言模型,发布于2025年7月25日,托管在 Hugging Face 平台上。它专注于复杂推理任务,支持高达256K(262,144)个令...
dots.llm1:小红书开源的首个MoE大语言模型
rednote-hilab/dots.llm1.base是小红书开源的首个大语言模型dots.llm1,托管于Hugging Face平台。模型采用混合专家(MoE)架构,拥有1420亿参数,推理时仅激活140亿参数,兼顾高性能与低成本。d...
Jan-nano:轻量高效的文本生成模型
Jan-nano 是一个基于 Qwen3 架构优化的 40 亿参数语言模型,由 Menlo Research 开发,托管在 Hugging Face 平台。它专为高效文本生成设计,兼顾小体积和长上下文处理能力,适合本地或嵌入式环境。模型支持...
NextCoder-32B:支持代码编辑与优化的开源大模型
NextCoder-32B 是由微软开发并在 Hugging Face 平台上发布的开源代码编辑大模型。它基于 Qwen2.5 模型,通过 Selective Knowledge Transfer(SeleKT)技术进行优化,专为代码生成、...
DeepSeek-TNG-R1T2-Chimera:德国 TNG 发布的 DeepSeek 增强版
DeepSeek-TNG-R1T2-Chimera 是由 TNG Technology Consulting GmbH 开发的一款开源大型语言模型,托管在 Hugging Face 平台上。该模型于 2025 年 7 月 2 日发布,是 D...
ERNIE 4.5
ERNIE 4.5 是由百度基于 PaddlePaddle 框架开发的开源大模型系列,涵盖从 0.3B 到 424B 参数的多种模型,支持文本处理、图像生成和多模态任务。项目托管在 GitHub 上,结合 Hugging Face 提供模型...
Hunyuan-A13B:高效开源大语言模型,支持超长上下文和智能推理
Hunyuan-A13B 是由腾讯混元团队开发的一款开源大语言模型,基于混合专家(MoE)架构设计。模型总参数量达 80 亿,其中 13 亿为活跃参数,兼顾高性能与低计算成本。Hunyuan-A13B 支持 256K 超长上下文处理,适用于...
Qwen3 发布:深入思考与快速响应并存的新一代大语言模型
大型语言模型领域迎来了新成员。近日, Qwen 系列大语言模型发布了其最新版本 Qwen3。据开发团队介绍,其旗舰模型 Qwen3-235B-A22B 在编码、数学及通用能力等基准测试中,展现出与 DeepSeek-R1 , o1 , o3...
回顶部