CosyVoice:阿里开源的多语言克隆与生成工具
CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著...
Qwen-TTS:支持中文方言和双语的语音合成工具
Qwen-TTS 是由阿里巴巴云 Qwen 团队开发的一款文本转语音(TTS)工具,通过 Qwen API 提供服务。它基于超大规模语音数据集训练,语音输出自然且富有表现力,能自动调整语调、语速和情感。Qwen-TTS 支持普通话、英...
Kyutai:语音与文本实时转换工具
Kyutai Labs的delayed-streams-modeling项目是一个开源的语音与文本转换框架,核心基于延迟流建模(DSM)技术。它支持实时语音转文本(STT)和文本转语音(TTS)功能,适用于构建高效的语音交互应用。项目提供P...
DeepSeek-TNG-R1T2-Chimera:德国 TNG 发布的 DeepSeek 增强版
DeepSeek-TNG-R1T2-Chimera 是由 TNG Technology Consulting GmbH 开发的一款开源大型语言模型,托管在 Hugging Face 平台上。该模型于 2025 年 7 月 2 日发布,是 D...
Index-AniSora:Bilibili开源的动漫视频生成工具
Index-AniSora 是由Bilibili开发并开源的动漫视频生成模型,托管在GitHub上。它以CogVideoX-5B和Wan2.1-14B为基础模型,支持生成多样化的动漫风格视频,包括动画剧集、国产原创动画、漫画改编、VTube...
GLM-4.1V-Thinking:开源视觉推理模型,支持多模态复杂任务
GLM-4.1V-Thinking 是一个由清华大学 KEG 实验室(THUDM)开发的开源视觉语言模型,专注于多模态推理能力。基于 GLM-4-9B-0414 基础模型,GLM-4.1V-Thinking 通过强化学习和“思维链”推理机制...
ERNIE 4.5
ERNIE 4.5 是由百度基于 PaddlePaddle 框架开发的开源大模型系列,涵盖从 0.3B 到 424B 参数的多种模型,支持文本处理、图像生成和多模态任务。项目托管在 GitHub 上,结合 Hugging Face 提供模型...
Hunyuan-A13B:高效开源大语言模型,支持超长上下文和智能推理
Hunyuan-A13B 是由腾讯混元团队开发的一款开源大语言模型,基于混合专家(MoE)架构设计。模型总参数量达 80 亿,其中 13 亿为活跃参数,兼顾高性能与低计算成本。Hunyuan-A13B 支持 256K 超长上下文处理,适用于...
推出 FLUX.1 Kontext 与 BFL Playground
今天,我们隆重发布 FLUX.1 Kontext —— 一套生成式流匹配模型(generative flow matching models),支持图像的生成与编辑。与现有文本生成图像模型不同,FLUX.1 Kontext 系列支持上下文感...
PartCrafter:从单张图片生成可编辑3D零件模型
PartCrafter 是一个创新的开源项目,专注于从单张RGB图片生成可编辑的3D零件模型。它采用先进的结构化3D生成技术,通过单一图像同时生成多个具有语义意义的3D零件,适用于游戏开发、产品设计等领域。项目基于预训...
Seedance 1.0
Seedance 1.0 是由字节跳动 Seed 团队开发的一款 AI 视频生成工具,专注于将文本或图像转化为高质量视频内容。用户只需输入文字描述或上传图片,Seedance 即可生成分辨率高达 1080p 的视频,适用于创意内容创作、.....
Gemma 3n
谷歌在相继推出面向单一云端或桌面加速器运行的开源模型 Gemma 3 与 Gemma 3 QAT 之后,再次拓展其普惠 AI 的版图。如果说 Gemma 3 为开发者带来了强大的云端与桌面端能力,那么此次于 2025 年 5 月 20 日发...
MoviiGen1.1
MoviiGen1.1 是由 ZuluVision 开发的一款开源人工智能工具,专注于从文本生成高质量视频。它支持 720P 和 1080P 分辨率,特别适合需要电影级视觉效果的专业视频制作。用户可以通过简单的文本描述生成具有自然动态...
HiDream-I1
HiDream-I1是一个开源的图像生成基础模型,拥有170亿参数,能够快速生成高质量图像。用户只需输入文字描述,模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发,托管在GitHub上,采...
Imagen 4
Google DeepMind 近期推出的 Imagen 4 模型,作为其图像生成技术的最新迭代,正迅速成为行业焦点。该模型在提升图像的丰富性、细节精确度以及生成速度方面取得了显著进展,致力于将用户的想象力以前所未有的方式...
BAGEL
BAGEL 是由 ByteDance Seed 团队开发的一个开源多模态基础模型,托管于 GitHub。它集成了文本理解、图像生成和编辑功能,支持跨模态任务。模型拥有 7B 活跃参数(总计 14B 参数),采用 Mixture-of-Tra...
MiniMax Speech 02
随着人工智能技术的不断演进,个性化和高自然度的语音交互已成为众多智能应用的关键需求。然而,现有的文本转语音 (TTS) 技术在满足大规模个性化音色、多语种覆盖以及高度真实情感表达方面仍面临挑战。针对这些行...
Windsurf SWE-1
SWE-1: 软件工程领域的新一代前沿模型问世 近日,业界瞩目的 SWE-1 系列模型正式发布。该系列模型专为优化整个软件工程流程而设计,其目标远不止于传统的代码编写任务。 当前,SWE-1家族包含三款定位清晰的模型:...
Qwen3 发布:深入思考与快速响应并存的新一代大语言模型
大型语言模型领域迎来了新成员。近日, Qwen 系列大语言模型发布了其最新版本 Qwen3。据开发团队介绍,其旗舰模型 Qwen3-235B-A22B 在编码、数学及通用能力等基准测试中,展现出与 DeepSeek-R1 , o1 , o3...