多模态模型

 提交网站

GLM-4.5V：能够理解图像和视频并生成代码的多模态对话模型
GLM-4.5V是由智谱AI（Z.AI）开发的新一代视觉语言大模型（VLM）。该模型基于采用MOE架构的旗舰文本模型GLM-4.5-Air构建，总参数量达到1060亿，其中激活参数为120亿。GLM-4.5V不仅能处理图像和文本，还能理解视...
3.6 K直达0已赞
0已收藏
Step3：高效生成多模态内容的开源大模型
Step3 是由 StepFun 开发的一个开源多模态大模型项目，托管在 GitHub 上，旨在提供高效、经济的文本、图像和语音内容生成能力。项目以 321 亿参数（38 亿活跃参数）的混合专家模型（MoE）为核心，优化了推理速度和性能，适...
2.1 K直达0已赞
0已收藏
无界方舟 (AutoArk)：可协同处理复杂任务的多智能体AI平台
无界方舟（AutoArk）是一家专注于人工智能技术的公司，其核心是自研的，在多项国际基准测试中表现比肩GPT-4o的端到端多模态大模型EVA-1。基于EVA-1模型，无界方舟进一步打造了名为“ArkAgentOS”的多智能体框架。这个框架...
2.0 K直达0已赞
0已收藏
GLM-4.1V-Thinking：开源视觉推理模型，支持多模态复杂任务
GLM-4.1V-Thinking 是一个由清华大学 KEG 实验室（THUDM）开发的开源视觉语言模型，专注于多模态推理能力。基于 GLM-4-9B-0414 基础模型，GLM-4.1V-Thinking 通过强化学习和“思维链”推理机制...
2.7 K直达0已赞
0已收藏
Gemma 3n
谷歌在相继推出面向单一云端或桌面加速器运行的开源模型 Gemma 3 与 Gemma 3 QAT 之后，再次拓展其普惠 AI 的版图。如果说 Gemma 3 为开发者带来了强大的云端与桌面端能力，那么此次于 2025 年 5 月 20 日发...
2.5 K直达0已赞
0已收藏
BAGEL
BAGEL 是由 ByteDance Seed 团队开发的一个开源多模态基础模型，托管于 GitHub。它集成了文本理解、图像生成和编辑功能，支持跨模态任务。模型拥有 7B 活跃参数（总计 14B 参数），采用 Mixture-of-Tra...
3.4 K直达0已赞
0已收藏
MoshiVis
MoshiVis 是 Kyutai Labs 开发的一个开源项目，托管在 GitHub 上。它基于 Moshi 语音-文本模型（7B 参数），新增了约 2.06 亿个适配参数和冻结的 PaliGemma2 视觉编码器（400M 参数），让模...
3.3 K直达0已赞
0已收藏
Qwen2.5-Omni
Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型。它能处理文本、图像、音频和视频等多种输入，并实时生成文本或自然语音响应。这款模型于 2025 年 3 月 26 日发布，代码和模型文件托管在 GitHu...
5.1 K直达0已赞
0已收藏
Step-Audio
Step-Audio 是一个开源的智能语音交互框架，旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话（如中文、英文、日语）、情感语音（如快乐、悲伤）、区域方言（如粤语、四川话）、可调节的语速和韵律风格（如说唱）。Step-...
3.1 K直达0已赞
0已收藏
VITA
VITA是一个领先的开源交互式多模态大语言模型项目，率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本，开创了首个开源交互式全模态大语言模型的先河。2024年12月，项目推出了重大升级版本VITA-1.5，...
3.7 K直达0已赞
0已收藏
Megrez-3B-Omni
Infini-Megrez是由无问芯穹（Infinigence AI）开发的边缘智能解决方案，旨在通过软硬件协同设计，实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型，支持图像、文本和音频的综合理解，具有高准确性和快速推理能...
2.9 K直达0已赞
0已收藏

多模态模型

快速查询站内AI工具