基础模型

 提交网站

xAI Grok Imagine API：生产环境开箱即用的多模态音视频生成服务
xAI 于 2026 年 1 月正式推出了 Grok Imagine API，这是一项面向开发者和企业的生产级多模态视频生成服务。该服务基于 xAI 内部研发的 “Aurora” 模型构建，核心能力在于能够根据文本提...
1.4 K直达0已赞
0已收藏
DeepSeek-OCR：一个开源的光学字符识别（OCR）工具
DeepSeek-OCR 是由深度求索（DeepSeek-AI）公司开发并开源的一款光学字符识别（OCR）工具。它提出了一个名为“上下文光学压缩”的新方法，从大语言模型（LLM）的角度来重新看待视觉编码器的角色。这个工具不是简单地识别图...
2.4 K直达0已赞
0已收藏
OmniInsert：无需蒙版即可将任意参考图像插入视频的工具
OmniInsert 是一个由字节跳动智能创作实验室开发的研究项目。它是一个无需使用蒙版（Mask）就能将任意参考对象无缝插入到视频中的工具。传统的视频编辑流程中，如果想在视频里加入一个新对象，通常需要手动创建一个精确的“蒙版”来框出这个对...
1.7 K直达0已赞
0已收藏
Wan2.2-S2V-14B：语音驱动人物口型同步的视频生成模型
Wan2.2-S2V-14B是Wan-AI团队开发的一款大型AI模型，专门用于根据音频、文字和图像生成高质量的视频。它采用了创新的混合专家（MoE）架构，模型总参数量达到27B，但在运行时只激活其中14B参数，有效平衡了性能和计算成本。 ...
2.1 K直达0已赞
0已收藏
SpatialLM：扫一下房间，AI自动帮你画出3D模型
SpatialLM是一个专门为处理三维（3D）点云数据而设计的大语言模型。它的核心功能是理解非结构化的3D几何数据，并将其转化为结构化的3D场景表示。这些结构化输出包含了建筑元素（如墙壁、门、窗）以及带方向的物体边界框及其语义类别。与许多需...
1.6 K直达0已赞
0已收藏
VibeVoice-1.5B：微软出品的支持长音频多角色对话的语音生成模型
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音（Text-to-Speech, TTS）模型。它专门用于生成富有表现力的、长篇幅的、多角色对话音频，例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
4.4 K直达2已赞
0已收藏
Grok-2：xAI 公司开源的混合专家大语言模型
Grok-2 是由埃隆·马斯克的 xAI 公司于 2024 年开发的第二代大语言模型。该模型的一大特点是采用了“混合专家（Mixture-of-Experts, MoE）”架构，这种设计可以更高效地处理信息。简单来说，模型内部有多个“专家”...
2.4 K直达0已赞
0已收藏
Baichuan-M2：医疗领域增强推理的大语言模型
Baichuan-M2 是百川智能公司推出的一个参数量为320亿（32B）的开源大语言模型。该模型专注于医疗领域，旨在处理真实世界的医疗推理任务。它基于Qwen2.5-32B模型进行二次开发，通过引入创新的“大型验证器系统”（Large ...
2.4 K直达0已赞
0已收藏
Genie 3：生成可实时交互的虚拟世界
Genie 3是谷歌DeepMind发布的一款通用世界模型（world model），它代表了AI在模拟和创建虚拟环境方面的最新进展。这款模型最核心的特点是，它可以仅仅根据一段文字描述，生成一个多样化且支持实时交互的动态世界。用户可以在这个...
1.8 K直达0已赞
0已收藏
Seed-OSS：开源大语言模型，支持长上下文推理与多功能应用
Seed-OSS 是由字节跳动（ByteDance）Seed 团队开发的一系列开源大语言模型，专注于长上下文处理、推理能力和代理任务优化。模型包含 360 亿参数，仅用 12 万亿 token 训练，性能在多个主流基准测试中表现出色，支持 ...
2.6 K直达0已赞
0已收藏
HRM：用于复杂推理的分层推理模型
HRM (Hierarchical Reasoning Model) 是一个仅有2700万参数的层级式推理模型，旨在解决人工智能领域中复杂的推理任务。该模型的设计灵感来源于人脑的层级式、多时间尺度的信息处理方式。它通过一个高层模块（负责缓...
1.7 K直达0已赞
0已收藏
DeepSeek-V3.1-Base：高效处理复杂任务的大规模语言模型
DeepSeek-V3.1-Base 是由 DeepSeek 开发并在 Hugging Face 平台上发布的一个开源大语言模型，专为自然语言处理任务设计。它拥有 6850 亿个参数，支持多种数据类型（BF16、F8_E4M3、F32），能...
2.2 K直达0已赞
0已收藏
Qwen-Image-Edit：根据文本指令编辑图片的AI模型
Qwen-Image-Edit 是由阿里巴巴通义千问团队开发的一款图像编辑AI模型。它基于拥有200亿参数的Qwen-Image模型进行训练，核心功能是让用户通过简单的中文或英文文字指令，对图片进行修改。这款模型同时利用了视觉语义理解和...
3.3 K直达0已赞
0已收藏
GLM-4.5V：能够理解图像和视频并生成代码的多模态对话模型
GLM-4.5V是由智谱AI（Z.AI）开发的新一代视觉语言大模型（VLM）。该模型基于采用MOE架构的旗舰文本模型GLM-4.5-Air构建，总参数量达到1060亿，其中激活参数为120亿。GLM-4.5V不仅能处理图像和文本，还能理解视...
3.5 K直达0已赞
0已收藏
Qwen-Image：生成高保真图像与精准文本渲染的AI工具
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型（MMDiT），专注于高保真图像生成和精准文本渲染。它在复杂文本处理（尤其是中文和英文）以及图像编辑方面表现卓越。模型支持多种艺术风格，如写实、动漫和高清海报，...
3.4 K直达0已赞
0已收藏
MiniMax 发布 Speech 2.5：语音合成技术在多语言与音色复刻上突破
8月7日，MiniMax 公司发布了其新一代语音生成模型 Speech 2.5。据官方资料显示，该模型在前代 Speech 02 的基础上，于多语种表现力、音色复刻精度以及支持的语种数量上实现了提升。在人工智能生成内容（AIGC）领域，文...
2.3 K直达0已赞
0已收藏
KittenTTS：轻量级文本转语音模型
KittenTTS 是一个开源的文本转语音（TTS）模型，专注于轻量化和高效性。它仅占用不到 25MB 存储空间，拥有约 1500 万个参数，无需 GPU 支持即可在低端设备上运行。KittenTTS 由 KittenML 团队开发，提供多...
2.9 K直达0已赞
0已收藏
GPT-OSS：OpenAI开源的高效推理大模型
GPT-OSS 是 OpenAI 推出的开源语言模型系列，包括 gpt-oss-120b 和 gpt-oss-20b，分别拥有 1170 亿和 210 亿参数，采用 Apache 2.0 许可，允许开发者免费下载、修改和部署。gpt-oss...
3.2 K直达0已赞
0已收藏
SongGeneration：生成高品质音乐和歌词的开源AI模型
SongGeneration 是由腾讯 AI Lab 开发并开源的音乐生成模型，专注于生成高品质的歌曲，包括歌词、伴奏和人声。它基于 LeVo 框架，结合语言模型 LeLM 和音乐编解码器，支持中英文歌曲生成。模型在百万歌曲数据集上训练，能...
4.1 K0已赞
0已收藏

基础模型

快速查询站内AI工具