Wan2.2 是阿里巴巴通义实验室开发的开源视频生成模型,专注于通过文本或图像生成高质量视频。它基于混合专家(MoE)架构,通过分离高噪声和低噪声阶段的去噪过程来提升生成质量,同时保持计算效率。该模型支持720P@24fps高清视频生成,可在消费级GPU上运行。
相较于前代Wan2.1,Wan2.2的主要改进包括:
- 训练数据显著增加:图像数据增长65.6%,视频数据增长83.2%
- 采用混合专家架构,提升生成质量
- 增强运动生成能力,使动作更流畅自然
- 改进语义理解和美学效果
- 优化计算效率,支持更广泛的硬件配置
这些改进使Wan2.2在Wan-Bench 2.0基准测试中超越了部分商业模型的性能。
This answer comes from the articleWan2.2: Open Source Video Generation Model with Efficient Text and Image to Video SupportThe