Gemma 3n
谷歌在相继推出面向单一云端或桌面加速器运行的开源模型 Gemma 3 与 Gemma 3 QAT 之后,再次拓展其普惠 AI 的版图。如果说 Gemma 3 为开发者带来了强大的云端与桌面端能力,那么此次于 2025 年 5 月 20 日发...
BAGEL
BAGEL 是由 ByteDance Seed 团队开发的一个开源多模态基础模型,托管于 GitHub。它集成了文本理解、图像生成和编辑功能,支持跨模态任务。模型拥有 7B 活跃参数(总计 14B 参数),采用 Mixture-of-Tra...
MoshiVis
MoshiVis 是 Kyutai Labs 开发的一个开源项目,托管在 GitHub 上。它基于 Moshi 语音-文本模型(7B 参数),新增了约 2.06 亿个适配参数和冻结的 PaliGemma2 视觉编码器(400M 参数),让模...
Qwen2.5-Omni
Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型。它能处理文本、图像、音频和视频等多种输入,并实时生成文本或自然语音响应。这款模型于 2025 年 3 月 26 日发布,代码和模型文件托管在 GitH....
Step-Audio
Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川话)、可调节的语速...
VITA
VITA是一个领先的开源交互式多模态大语言模型项目,率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本,开创了首个开源交互式全模态大语言模型的先河。2024年12月,项目推出了重大升级版...
Megrez-3B-Omni
Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图像、文本和音频的综合理解,具有高准确性和快...