
OmniInsert:无需蒙版即可将任意参考图像插入视频的工具
OmniInsert 是一个由字节跳动智能创作实验室开发的研究项目。它是一个无需使用蒙版(Mask)就能将任意参考对象无缝插入到视频中的工具。传统的视频编辑流程中,如果想在视频里加入一个新对象,通常需要手动创建一...

Wan2.2-S2V-14B:语音驱动人物口型同步的视频生成模型
Wan2.2-S2V-14B是Wan-AI团队开发的一款大型AI模型,专门用于根据音频、文字和图像生成高质量的视频。 它采用了创新的混合专家(MoE)架构,模型总参数量达到27B,但在运行时只激活其中14B参数,有效平衡了性能和...

SpatialLM:扫一下房间,AI自动帮你画出3D模型
SpatialLM是一个专门为处理三维(3D)点云数据而设计的大语言模型。它的核心功能是理解非结构化的3D几何数据,并将其转化为结构化的3D场景表示。这些结构化输出包含了建筑元素(如墙壁、门、窗)以及带方向的物体...

VibeVoice-1.5B:微软出品的支持长音频多角色对话的语音生成模型
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...

Grok-2:xAI 公司开源的混合专家大语言模型
Grok-2 是由埃隆·马斯克的 xAI 公司于 2024 年开发的第二代大语言模型。该模型的一大特点是采用了“混合专家(Mixture-of-Experts, MoE)”架构,这种设计可以更高效地处理信息。简单来说,模型内部有多个“专家”...

Baichuan-M2:医疗领域增强推理的大语言模型
Baichuan-M2 是百川智能公司推出的一个参数量为320亿(32B)的开源大语言模型。 该模型专注于医疗领域,旨在处理真实世界的医疗推理任务。它基于Qwen2.5-32B模型进行二次开发,通过引入创新的“大型验证器系统”(L...

Genie 3:生成可实时交互的虚拟世界
Genie 3是谷歌DeepMind发布的一款通用世界模型(world model),它代表了AI在模拟和创建虚拟环境方面的最新进展。这款模型最核心的特点是,它可以仅仅根据一段文字描述,生成一个多样化且支持实时交互的动态世界...

Seed-OSS:开源大语言模型,支持长上下文推理与多功能应用
Seed-OSS 是由字节跳动(ByteDance)Seed 团队开发的一系列开源大语言模型,专注于长上下文处理、推理能力和代理任务优化。模型包含 360 亿参数,仅用 12 万亿 token 训练,性能在多个主流基准测试中表现出色,支.....

HRM:用于复杂推理的分层推理模型
HRM (Hierarchical Reasoning Model) 是一个仅有2700万参数的层级式推理模型,旨在解决人工智能领域中复杂的推理任务。该模型的设计灵感来源于人脑的层级式、多时间尺度的信息处理方式。 它通过一个高层模块(负.....

DeepSeek-V3.1-Base:高效处理复杂任务的大规模语言模型
DeepSeek-V3.1-Base 是由 DeepSeek 开发并在 Hugging Face 平台上发布的一个开源大语言模型,专为自然语言处理任务设计。它拥有 6850 亿个参数,支持多种数据类型(BF16、F8_E4M3、F32),能...

Qwen-Image-Edit:根据文本指令编辑图片的AI模型
Qwen-Image-Edit 是由阿里巴巴通义千问团队开发的一款图像编辑AI模型。 它基于拥有200亿参数的Qwen-Image模型进行训练,核心功能是让用户通过简单的中文或英文文字指令,对图片进行修改。 这款模型同时利用了视觉...

GLM-4.5V:能够理解图像和视频并生成代码的多模态对话模型
GLM-4.5V是由智谱AI(Z.AI)开发的新一代视觉语言大模型(VLM)。该模型基于采用MOE架构的旗舰文本模型GLM-4.5-Air构建,总参数量达到1060亿,其中激活参数为120亿。GLM-4.5V不仅能处理图像和文本,还能理解视...

Qwen-Image:生成高保真图像与精准文本渲染的AI工具
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、...

MiniMax 发布 Speech 2.5:语音合成技术在多语言与音色复刻上突破
8月7日,MiniMax 公司发布了其新一代语音生成模型 Speech 2.5。据官方资料显示,该模型在前代 Speech 02 的基础上,于多语种表现力、音色复刻精度以及支持的语种数量上实现了提升。 在人工智能生成内容(AIGC)领...

KittenTTS:轻量级文本转语音模型
KittenTTS 是一个开源的文本转语音(TTS)模型,专注于轻量化和高效性。它仅占用不到 25MB 存储空间,拥有约 1500 万个参数,无需 GPU 支持即可在低端设备上运行。KittenTTS 由 KittenML 团队开发,提供多...

GPT-OSS:OpenAI开源的高效推理大模型
GPT-OSS 是 OpenAI 推出的开源语言模型系列,包括 gpt-oss-120b 和 gpt-oss-20b,分别拥有 1170 亿和 210 亿参数,采用 Apache 2.0 许可,允许开发者免费下载、修改和部署。gpt-oss...

SongGeneration:生成高品质音乐和歌词的开源AI模型
SongGeneration 是由腾讯 AI Lab 开发并开源的音乐生成模型,专注于生成高品质的歌曲,包括歌词、伴奏和人声。它基于 LeVo 框架,结合语言模型 LeLM 和音乐编解码器,支持中英文歌曲生成。模型在百万歌曲数据集上...

Step3:高效生成多模态内容的开源大模型
Step3 是由 StepFun 开发的一个开源多模态大模型项目,托管在 GitHub 上,旨在提供高效、经济的文本、图像和语音内容生成能力。项目以 321 亿参数(38 亿活跃参数)的混合专家模型(MoE)为核心,优化了推理速度...

Seed Diffusion:验证新一代架构的高速语言模型
Seed Diffusion 是一个实验性的语言模型,由字节跳动Seed团队联合清华大学智能产业研究院(AIR)共同推出。这个网站是该模型的技术演示平台。该模型基于离散扩散技术,主要目标是探索下一代语言模型基础框架的可...
回顶部