Wan2.2：开源视频生成模型，支持高效文本和图像转视频

2025-07-29

596 14

Wan2.2 是由阿里巴巴通义实验室开发的开源视频生成模型，专注于通过文本或图像生成高质量视频。它采用混合专家（MoE）架构，通过分离高噪声和低噪声阶段的去噪过程，显著提升生成质量，同时保持计算效率。Wan2.2 支持 720P@24fps 高清视频生成，可运行在消费级 GPU（如 RTX 4090）上，适合个人创作者和开发者。相比 Wan2.1，Wan2.2 训练数据增加 65.6% 的图像和 83.2% 的视频，显著提升了运动生成、语义理解和美学效果。它支持文本转视频（T2V）、图像转视频（I2V）以及文本-图像联合生成（TI2V），并集成到 Diffusers 和 ComfyUI，提供灵活的使用方式。Wan2.2 在 Wan-Bench 2.0 基准测试中超越部分商业模型，展现出强大的性能和广泛的应用潜力。

功能列表

文本转视频（T2V） ：根据文本描述生成 5 秒 480P 或 720P 视频，支持复杂场景和动作。
图像转视频（I2V） ：从静态图像生成动态视频，保持画面一致性和风格。
文本-图像联合生成（TI2V） ：结合文本和图像生成 720P@24fps 视频，适合低显存设备。
高效视频变分自编码器（Wan-VAE） ：实现 16×16×4 压缩比，支持高质量视频重建。
混合专家架构（MoE） ：使用高噪声和低噪声专家模型，提升生成质量，保持计算效率。
电影级美学效果 ：支持精细控制光线、构图和色调，生成专业电影风格视频。
复杂运动生成 ：支持动态动作如跳舞、格斗、跑酷等，动作流畅自然。
提示扩展 ：通过 Dashscope API 或本地 Qwen 模型丰富文本提示，提升视频细节。
低显存优化 ：支持 FP8 量化和模型卸载，降低 GPU 显存需求。
多平台集成 ：支持 Diffusers 和 ComfyUI，提供命令行和图形界面操作。

使用帮助

安装流程

要使用 Wan2.2，需要在本地或服务器上配置环境。以下是详细的安装和使用步骤，适合初学者和有经验的开发者。

1. 环境准备

确保你的系统满足以下要求：

硬件：T2V-A14B 和 I2V-A14B 模型需要至少 80GB 显存的 GPU（如 A100）；TI2V-5B 模型支持 24GB 显存的消费级 GPU（如 RTX 4090）。
操作系统 ：支持 Windows、Linux 或 macOS。
Python 版本 ：Python 3.10 或更高版本。
依赖工具 ：Git、PyTorch（建议 2.4.0 或更高版本）、Hugging Face CLI、ModelScope CLI。

2. 克隆代码库

在终端或命令提示符中运行以下命令，克隆 Wan2.2 代码库：

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

3. 安装依赖

安装必要的 Python 库。运行以下命令：

pip install -r requirements.txt
pip install "huggingface_hub[cli]" modelscope

如果使用多 GPU 加速，需安装 xfuser>=0.4.1：

pip install "xfuser>=0.4.1"

注意：如果 flash_attn 安装失败，建议先安装其他依赖，最后单独安装 flash_attn。

4. 下载模型权重

Wan2.2 提供三种模型：T2V-A14B、I2V-A14B 和 TI2V-5B。以下是下载命令：

Hugging Face 下载 ：

huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B
huggingface-cli download Wan-AI/Wan2.2-I2V-A14B --local-dir ./Wan2.2-I2V-A14B
huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B

ModelScope 下载 ：

modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B
modelscope download Wan-AI/Wan2.2-I2V-A14B --local_dir ./Wan2.2-I2V-A14B
modelscope download Wan-AI/Wan2.2-TI2V-5B --local_dir ./Wan2.2-TI2V-5B

5. 配置环境变量（可选）

如果使用提示扩展功能，需配置 Dashscope API 密钥：

export DASH_API_KEY=your_dashscope_api_key

对于国际用户，需额外设置：

export DASH_API_URL=https://dashscope-intl.aliyuncs.com/api/v1

你需要提前在 Alibaba Cloud 申请 API 密钥。

6. 运行生成脚本

Wan2.2 提供 generate.py 脚本用于生成视频。以下是各任务的运行示例：

文本转视频（T2V-A14B） ：

python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "两只拟人猫穿着舒适的拳击装备，在聚光灯舞台上激烈对战"

单 GPU ：需要 80GB 显存，启用 --offload_model True 和 --convert_model_dtype 降低显存需求。
多 GPU ：

torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "两只拟人猫穿着舒适的拳击装备，在聚光灯舞台上激烈对战"

图像转视频（I2V-A14B） ：

python generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --offload_model True --convert_model_dtype --image examples/i2v_input.JPG --prompt "夏日海滩度假风格，一只戴墨镜的白猫坐在冲浪板上，背景是模糊的海景和绿色山丘"

图像分辨率需与目标视频分辨率一致。
支持无提示词生成，仅依赖输入图像：

DASH_API_KEY=your_key python generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --prompt '' --image examples/i2v_input.JPG --use_prompt_extend --prompt_extend_method 'dashscope'

文本-图像联合生成（TI2V-5B） ：

python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "两只拟人猫穿着舒适的拳击装备，在聚光灯舞台上激烈对战"

图像输入 （I2V 模式）：

python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "夏日海滩度假风格，一只戴墨镜的白猫坐在冲浪板上"

TI2V-5B 支持 24GB 显存的 GPU，生成 720P@24fps 视频约需 9 分钟。

提示扩展 ：
使用 Dashscope API：

DASH_API_KEY=your_key python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh' --prompt "两只拟人猫穿着舒适的拳击装备，在聚光灯舞台上激烈对战"

使用本地 Qwen 模型（如 Qwen/Qwen2.5-7B-Instruct）：

python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_model 'Qwen/Qwen2.5-7B-Instruct' --prompt "两只拟人猫穿着舒适的拳击装备，在聚光灯舞台上激烈对战"

7. 使用 ComfyUI

Wan2.2 已集成到 ComfyUI，适合图形界面用户。安装步骤：

克隆 ComfyUI-WanVideoWrapper：

git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
cd ComfyUI-WanVideoWrapper
pip install -r requirements.txt

将模型文件放入 ComfyUI 目录：
- T2V/I2V 模型：ComfyUI/models/diffusion_models/
- VAE 模型：ComfyUI/models/vae/
- CLIP 模型：ComfyUI/models/clip_vision/
在 ComfyUI 中加载工作流，导入 Wan2.2 模型，设置提示词并运行。

8. 使用 Diffusers

Wan2.2 已集成到 Diffusers，简化模型调用：

from diffusers import DiffusionPipeline
pipeline = DiffusionPipeline.from_pretrained("Wan-AI/Wan2.2-TI2V-5B-Diffusers")
pipeline.to("cuda")
video = pipeline(prompt="两只拟人猫穿着舒适的拳击装备，在聚光灯舞台上激烈对战").videos

支持 T2V-A14B、I2V-A14B 和 TI2V-5B 模型。

操作主要功能

文本转视频

输入详细的文本描述，如“夜晚的城市天际线，霓虹灯闪烁”，生成 5 秒视频。建议使用具体提示词，如“一个穿红色外套的女孩在雪地中漫步，背景是白雪覆盖的森林”。启用提示扩展（--use_prompt_extend）可自动丰富描述，生成更细致的画面。

图像转视频

上传一张图片，配合文本描述，生成动态视频。例如，上传猫的照片，输入“猫在草地上追逐蝴蝶”，生成相应动画。确保图像分辨率与目标视频一致。

文本-图像联合生成

TI2V-5B 模型支持文本或图像输入，生成 720P@24fps 视频。适合低显存设备，生成速度快，效果稳定。

电影级美学效果

Wan2.2 支持精细控制光线、构图和色调。例如，输入“侧光照明，高对比度，温暖色调，一个年轻男子站在森林中”，生成电影风格视频。

复杂运动生成

支持生成动态动作，如“街头跑酷运动员翻越障碍”或“嘻哈舞者在霓虹灯舞台上表演”，动作流畅自然。

应用场景

内容创作
- 创作者可将文本或图片转为短视频，制作广告、短片或社交媒体内容。例如，生成“科幻飞船穿越星际”的动画视频。
教育与演示
- 教师可将静态课件转为动态视频，增强教学效果。例如，将历史事件描述转为视频，展示历史场景。
游戏与动画开发
- 开发者可生成游戏背景视频或动画原型。例如，生成“中世纪村庄的日常”作为游戏场景参考。
商业宣传
- 企业可生成产品宣传视频。例如，输入“智能手表在户外运动场景中的使用”，生成展示功能的短视频。
艺术创作
- 艺术家可将静态画作转为动态视频。例如，将抽象画转为流动的动画效果。

QA

Wan2.2 支持哪些分辨率？
- T2V-A14B 和 I2V-A14B 支持 480P 和 720P；TI2V-5B 支持 720P（1280704 或 7041280）。
低显存设备如何运行？
- 使用 TI2V-5B 模型（24GB 显存），启用 --offload_model True、 --convert_model_dtype 和 --t5_cpu 降低显存需求。
如何提升视频质量？
- 使用详细提示词，启用提示扩展，选择 FP16 模型（比 FP8 质量更高）。
是否支持商业用途？
- 是的，Wan2.2 采用 Apache 2.0 许可，可用于商业项目，但需遵守相关法律。
与 Wan2.1 相比，Wan2.2 有何改进？
- 引入 MoE 架构，训练数据增加 65.6% 的图像和 83.2% 的视频，支持更复杂的运动和电影级美学效果。

AI开源项目

AI生产力工具 » Wan2.2：开源视频生成模型，支持高效文本和图像转视频发布于 2025-07-29，如发现网址过期，或无法访问，请联系我们。

0已收藏

0已赞

Wan2.2：开源视频生成模型，支持高效文本和图像转视频

功能列表

使用帮助

安装流程

1. 环境准备

2. 克隆代码库

3. 安装依赖

4. 下载模型权重

5. 配置环境变量（可选）

6. 运行生成脚本

7. 使用 ComfyUI

8. 使用 Diffusers

操作主要功能

文本转视频

图像转视频

文本-图像联合生成

电影级美学效果

复杂运动生成

应用场景

QA

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

Wan2.2：开源视频生成模型，支持高效文本和图像转视频

功能列表

使用帮助

安装流程

1. 环境准备

2. 克隆代码库

3. 安装依赖

4. 下载模型权重

5. 配置环境变量（可选）

6. 运行生成脚本

7. 使用 ComfyUI

8. 使用 Diffusers

操作主要功能

文本转视频

图像转视频

文本-图像联合生成

电影级美学效果

复杂运动生成

应用场景

QA

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具