wan2.1 视频工作流搭建指南

2025-07-25

随着 wan2.1 等视频模型的出现，本地化视频生成的技术生态正逐步走向成熟。以往，高性能硬件是搭建视频工作流的主要障碍，但随着云端计算资源的普及和模型优化技术的发展，现在即便是没有顶级显卡的用户，也能够通过租用云端 4090 显卡等方式，深入学习和探索 wan2.1 视频工作流。

在 ComfyUI 的官方基础工作流中，wan2.1 的使用与传统文生图流程相似，但增加了一个关键节点 model sampling sd3。该节点用于调整 UNet 的“内部位移” (internal shift) 时间步位置，其默认推荐值为 8。这个参数能够影响模型对提示词的理解和控制力，从而优化生成画面的细节。

要运行 wan2.1 模型，必须配备对应的 unmt5 文本编码器和 wan2.1 VAE (变分自编码器)。VAE 由编码器 (Encoder) 和解码器 (Decoder) 两部分组成。编码器负责将输入图像压缩到低维的潜在空间，而解码器则从潜在空间中采样并将其还原为图像。

文本编码器 (Text Encoder) 的作用则是将输入的文本提示词，转化为模型能够理解的特征向量。这个过程主要包括两个步骤：

提取文本的语义信息特征，例如“1个女孩”。
将这些语义信息转化为高维的嵌入向量 (embedding vector)。

生成模型 (如 UNet) 依据这些嵌入向量，在潜在空间中生成符合文本描述的图像特征，从而决定画面中物体的种类、位置、颜色和姿态。

与静态的文生图工作流不同，视频生成流程的最后一步是 Video Combine (视频合成) 节点。

该节点负责将图像序列整合成视频或动图文件。其主要参数包括：

frame_rate (帧率): 决定视频播放的流畅度，例如设置为 8，表示每秒播放 8 帧。
loop_count (循环次数): 0 代表无限循环，适用于 GIF 动图；1 则代表播放一次后停止。
filename_prefix (文件名前缀): 为输出文件设定前缀，如 AnimateDiff，便于管理。
format (输出格式): 可选择 image/gif 输出动图，或 video/mp4 等视频格式。
pingpong (往返循环): false 为常规顺序播放，true 则实现从头到尾再到头的往返播放。
save_output (保存输出): 设置为 true 时，执行节点后会自动保存文件。

官方工作流仅实现了基础功能，在显存优化、视频增强等方面存在局限。为此，开发者“K神”创建了 wanvideo wrapper 工具包，提供了一系列优化节点。

优化的核心：wanvideo wrapper

wanvideo model loader

wanvideo model loader 是一个功能强大的模型加载节点，它不仅可以加载 wanvideo 模型，还提供了丰富的优化选项。

模型精度 (Base Precision): 用户可以选择不同的模型精度，如 fp32、bf16、fp16。fp32 (32位浮点数) 精度最高，但显存占用和计算开销最大；fp16 (16位浮点数) 则能显著降低显存占用并提升速度，但可能牺牲部分精度。
量化 (Quantization): 通过 quantization 选项，可以将模型量化以进一步压缩。例如，fp8_e4m3fn 格式使用8位浮点数表示，极大地降低了显存需求，尤其适合显存有限的设备，但通常需要模型预先支持量化。

设备加载 (Load Device): main device 通常指代 GPU，而 offload device 指代 CPU。此功能允许将模型部分组件卸载到 CPU，以节约宝贵的显存资源。

注意力机制 (Attention Mode): 此选项允许用户选择不同的注意力机制实现方式，以平衡性能和显存。注意力机制是Transformer模型的核心，它决定了模型在生成内容时如何“关注”输入信息的相关部分。

该加载器还提供了多个输入接口用于高级优化：

编译参数 (compile args): 此接口可用于配置 torch.compile 或 xformers 等编译优化。xformers 是一个专门用于优化 Transformer 计算的库，而 torch.compile 是 PyTorch 2.0 引入的即时编译器。如果环境中安装了 Triton 编译器，可以获得约30%的速度提升。

块交换参数 (block swap args): 当显存不足以容纳整个模型时，此功能允许将模型的部分“块” (blocks) 暂存到 CPU。例如，设置 blocks to swap 为20，意味着将模型的20个块移出GPU，在需要时再通过非阻塞方式传回。转移的块越多，显存节省越明显，但数据来回传输会牺牲一定的生成速度。

LoRA 加载: 此接口可连接 wanvideo lora select 节点，用于加载各类 LoRA 模型，例如用于加速文生视频的 light x2v t2v LoRA。

Multitalk 功能模型: 该节点还支持加载 Multitalk、Fantasytalking 等数字人模型，这些都是由开发者整合进 wanvideo wrapper 的新兴开源项目。

wanvideo sampler

wanvideo sampler 是基于 wan2.1 模型定制的视频采样节点，是生成视频序列帧的核心。

其主要输入包括：

model: 连接来自 wanvideo model loader 的模型。
text embeds (文本嵌入): 连接 wanvideo text encode 的输出，将使用 unmt5 编码的文本向量传入。

image embeds (图像嵌入): 用于实现图像到视频的生成。该工作流通常先用 wanvideo clipvision encode 提取参考图的 CLIP 特征，再通过 wanvideo image to video encode 节点利用 VAE 将图像特征编码为模型可用的向量表示。