文本模型

 提交网站

Grok-2：xAI 公司开源的混合专家大语言模型
Grok-2 是由埃隆·马斯克的 xAI 公司于 2024 年开发的第二代大语言模型。该模型的一大特点是采用了“混合专家（Mixture-of-Experts, MoE）”架构，这种设计可以更高效地处理信息。简单来说，模型内部有多个“专家”...
723直达0已赞
0已收藏
Seed-OSS：开源大语言模型，支持长上下文推理与多功能应用
Seed-OSS 是由字节跳动（ByteDance）Seed 团队开发的一系列开源大语言模型，专注于长上下文处理、推理能力和代理任务优化。模型包含 360 亿参数，仅用 12 万亿 token 训练，性能在多个主流基准测试中表现出色，支.....
1.0 K直达0已赞
0已收藏
DeepSeek-V3.1-Base：高效处理复杂任务的大规模语言模型
DeepSeek-V3.1-Base 是由 DeepSeek 开发并在 Hugging Face 平台上发布的一个开源大语言模型，专为自然语言处理任务设计。它拥有 6850 亿个参数，支持多种数据类型（BF16、F8_E4M3、F32），能...
973直达0已赞
0已收藏
GPT-OSS：OpenAI开源的高效推理大模型
GPT-OSS 是 OpenAI 推出的开源语言模型系列，包括 gpt-oss-120b 和 gpt-oss-20b，分别拥有 1170 亿和 210 亿参数，采用 Apache 2.0 许可，允许开发者免费下载、修改和部署。gpt-oss...
1.1 K直达0已赞
0已收藏
GLM-4.5：开源多模态大模型支持智能推理与代码生成
GLM-4.5 是 zai-org 开发的一款开源多模态大语言模型，专为智能推理、代码生成和智能体任务设计。它包含 GLM-4.5（3550 亿参数，320 亿活跃参数）、GLM-4.5-Air（1060 亿参数，120 亿活跃参数）等多个...
1.5 K0已赞
0已收藏
Qwen3-235B-A22B-Thinking-2507：支持复杂推理的大型语言模型
Qwen3-235B-A22B-Thinking-2507 是由阿里巴巴云 Qwen 团队开发的大型语言模型，发布于2025年7月25日，托管在 Hugging Face 平台上。它专注于复杂推理任务，支持高达256K（262,144）个令...
985直达0已赞
0已收藏
dots.llm1：小红书开源的首个MoE大语言模型
rednote-hilab/dots.llm1.base是小红书开源的首个大语言模型dots.llm1，托管于Hugging Face平台。模型采用混合专家（MoE）架构，拥有1420亿参数，推理时仅激活140亿参数，兼顾高性能与低成本。d...
739直达0已赞
0已收藏
Jan-nano：轻量高效的文本生成模型
Jan-nano 是一个基于 Qwen3 架构优化的 40 亿参数语言模型，由 Menlo Research 开发，托管在 Hugging Face 平台。它专为高效文本生成设计，兼顾小体积和长上下文处理能力，适合本地或嵌入式环境。模型支持...
864直达0已赞
0已收藏
NextCoder-32B：支持代码编辑与优化的开源大模型
NextCoder-32B 是由微软开发并在 Hugging Face 平台上发布的开源代码编辑大模型。它基于 Qwen2.5 模型，通过 Selective Knowledge Transfer（SeleKT）技术进行优化，专为代码生成、...
611直达0已赞
0已收藏
DeepSeek-TNG-R1T2-Chimera：德国 TNG 发布的 DeepSeek 增强版
DeepSeek-TNG-R1T2-Chimera 是由 TNG Technology Consulting GmbH 开发的一款开源大型语言模型，托管在 Hugging Face 平台上。该模型于 2025 年 7 月 2 日发布，是 D...
2.4 K直达0已赞
0已收藏
ERNIE 4.5
ERNIE 4.5 是由百度基于 PaddlePaddle 框架开发的开源大模型系列，涵盖从 0.3B 到 424B 参数的多种模型，支持文本处理、图像生成和多模态任务。项目托管在 GitHub 上，结合 Hugging Face 提供模型...
1.1 K直达0已赞
0已收藏
Hunyuan-A13B：高效开源大语言模型，支持超长上下文和智能推理
Hunyuan-A13B 是由腾讯混元团队开发的一款开源大语言模型，基于混合专家（MoE）架构设计。模型总参数量达 80 亿，其中 13 亿为活跃参数，兼顾高性能与低计算成本。Hunyuan-A13B 支持 256K 超长上下文处理，适用于...
1.7 K直达0已赞
0已收藏
Qwen3 发布：深入思考与快速响应并存的新一代大语言模型
大型语言模型领域迎来了新成员。近日， Qwen 系列大语言模型发布了其最新版本 Qwen3。据开发团队介绍，其旗舰模型 Qwen3-235B-A22B 在编码、数学及通用能力等基准测试中，展现出与 DeepSeek-R1 , o1 , o3...
1.9 K直达0已赞
0已收藏

文本模型

快速查询站内AI工具