Gemma 3n
谷歌在相继推出面向单一云端或桌面加速器运行的开源模型 Gemma 3 与 Gemma 3 QAT 之后,再次拓展其普惠 AI 的版图。如果说 Gemma 3 为开发者带来了强大的云端与桌面端能力,那么此次于 2025 年 5 月 20 日发...
MoviiGen1.1
MoviiGen1.1 是由 ZuluVision 开发的一款开源人工智能工具,专注于从文本生成高质量视频。它支持 720P 和 1080P 分辨率,特别适合需要电影级视觉效果的专业视频制作。用户可以通过简单的文本描述生成具有自然动态...
HiDream-I1
HiDream-I1是一个开源的图像生成基础模型,拥有170亿参数,能够快速生成高质量图像。用户只需输入文字描述,模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发,托管在GitHub上,采...
Imagen 4
Google DeepMind 近期推出的 Imagen 4 模型,作为其图像生成技术的最新迭代,正迅速成为行业焦点。该模型在提升图像的丰富性、细节精确度以及生成速度方面取得了显著进展,致力于将用户的想象力以前所未有的方式...
BAGEL
BAGEL 是由 ByteDance Seed 团队开发的一个开源多模态基础模型,托管于 GitHub。它集成了文本理解、图像生成和编辑功能,支持跨模态任务。模型拥有 7B 活跃参数(总计 14B 参数),采用 Mixture-of-Tra...
MiniMax Speech 02
随着人工智能技术的不断演进,个性化和高自然度的语音交互已成为众多智能应用的关键需求。然而,现有的文本转语音 (TTS) 技术在满足大规模个性化音色、多语种覆盖以及高度真实情感表达方面仍面临挑战。针对这些行...
Windsurf SWE-1
SWE-1: 软件工程领域的新一代前沿模型问世 近日,业界瞩目的 SWE-1 系列模型正式发布。该系列模型专为优化整个软件工程流程而设计,其目标远不止于传统的代码编写任务。 当前,SWE-1家族包含三款定位清晰的模型:...
VideoMind
VideoMind 是一个开源的多模态AI工具,专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔(Ye Liu)和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频的方式,把任务拆成规划、定位、验...
MoshiVis
MoshiVis 是 Kyutai Labs 开发的一个开源项目,托管在 GitHub 上。它基于 Moshi 语音-文本模型(7B 参数),新增了约 2.06 亿个适配参数和冻结的 PaliGemma2 视觉编码器(400M 参数),让模...
Qwen2.5-Omni
Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型。它能处理文本、图像、音频和视频等多种输入,并实时生成文本或自然语音响应。这款模型于 2025 年 3 月 26 日发布,代码和模型文件托管在 GitH....
StarVector
StarVector 是一个开源项目,它由 Juan A. Rodriguez 等开发者创建,目的是将图像和文字转化为可缩放矢量图形(SVG)。这个工具使用视觉语言模型,能够理解图像内容和文字指令,生成高质量的 SVG 代码。它的核心...
LaWGPT
LaWGPT 是由南京大学机器学习与数据挖掘研究组支持的一个开源项目,致力于打造基于中文法律知识的大语言模型。它在通用中文模型(如 Chinese-LLaMA 和 ChatGLM)的基础上,扩展了法律领域专有词表,并通过大规模...
Baichuan-Audio
Baichuan-Audio 是由百川智能(baichuan-inc)开发的一个开源项目,托管于 GitHub 上,专注于端到端的语音交互技术。该项目提供了一个完整的音频处理框架,能够将语音输入转化为离散音频标记,再通过大模型生成对...
Step-Audio
Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川话)、可调节的语速...
DeepSeek-VL2
DeepSeek-VL2 是一系列高级的 Mixture-of-Experts (MoE) 视觉语言模型,显著提升了其前身 DeepSeek-VL 的性能。该模型在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等任务中表现出色。De...
VITA
VITA是一个领先的开源交互式多模态大语言模型项目,率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本,开创了首个开源交互式全模态大语言模型的先河。2024年12月,项目推出了重大升级版...
AnyText
AnyText是一个革命性的多语言视觉文本生成和编辑工具,基于扩散模型开发。它能够在图像中生成自然、高质量的多语种文本,并支持灵活的文本编辑功能。该项目由研究团队开发,并在ICLR 2024会议上获得Spotlight荣誉...
Megrez-3B-Omni
Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图像、文本和音频的综合理解,具有高准确性和快...
OmniGen
OmniGen 是一个由 VectorSpaceLab(智源) 开发的“通用”图像生成模型,允许用户通过简单的文本提示或多模态输入来创建多样化且具有上下文丰富的视觉效果。它特别适合于需要识别人物和一致性角色渲染的场景。用户...