Overseas access: www.kdjingpai.com
Bookmark Us

Wan2.2-S2V-14B是Wan-AI团队开发的一款大型AI模型,专门用于根据音频、文字和图像生成高质量的视频。 它采用了创新的混合专家(MoE)架构,模型总参数量达到27B,但在运行时只激活其中14B参数,有效平衡了性能和计算成本。 该模型的核心功能是“语音驱动”,它可以将输入的语音内容,结合用户提供的文本描述和参考图像,转化为动态的视频画面。 Wan2.2-S2V-14B尤其注重生成视频的“电影级美学”,通过在精选的美学数据上进行训练,使其能够在光照、构图和色彩等方面达到更高水准。 此外,它还支持姿态控制功能,允许用户通过一个姿态视频来引导生成视频中人物的动作,为视频创作提供了更高的自由度。

Function List

  • 语音驱动生成: 以音频文件为核心驱动力,结合文本提示和参考图片,生成与音频内容同步的视频。
  • 电影级美学: 模型经过特殊的美学数据训练,能生成具有专业光照、构图和色调的视频。
  • High Resolution Output: 支持生成480P和720P分辨率的视频,满足不同场景下的清晰度需求。
  • 姿态控制: 用户可以提供一个包含特定动作的视频(pose video),模型会根据该动作序列生成视频,实现对人物姿态的精确控制。
  • 混合专家架构 (MoE): 采用高效的MoE架构,在保证强大生成能力的同时,维持了相对较低的计算资源消耗。
  • 灵活的输入组合: 可以仅使用音频和图片,也可以额外加入文本描述,为创作提供多种组合方式。
  • 视频长度自适应: 在不设特定参数时,生成的视频长度会根据输入音频的长度自动进行调整。

Using Help

Wan2.2-S2V-14B模型提供了详细的安装和使用流程,让用户可以快速部署并开始生成视频。

1. Environment preparation and installation

首先,需要从GitHub克隆官方代码仓库,并安装所需的依赖库。

Step 1: Clone the code repository
打开终端,执行以下命令将项目代码下载到本地:

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

第二步:安装依赖
Project dependenciestorch版本需大于等于2.4.0。接着,使用pipmountingrequirements.txt文件中列出的所有库。

pip install -r requirements.txt

take note of:如果在安装过程中flash_attn包出现安装失败的情况,可以先尝试安装其他所有包,最后再单独安装flash_attnThe

2. Model downloads

模型文件可以通过huggingface-climaybemodelscope-cli进行下载。

使用Hugging Face CLI下载 (需要先安装huggingface_hub):

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-S2V-14B --local-dir ./Wan2.2-S2V-14B

使用ModelScope CLI下载 (需要先安装modelscope):

pip install modelscope
modelscope download Wan-AI/Wan2.2-S2V-14B --local_dir ./Wan2.2-S2V-14B

执行命令后,模型权重等相关文件会被下载到当前目录下的Wan2.2-S2V-14Bfolder.

3. 生成视频:操作流程与命令

模型支持多种模式的视频生成,包括单GPU推理和多GPU分布式推理。

场景一:基础语音视频生成(单GPU)

这是最基础的使用方式,适用于拥有足够显存(官方提示至少需要80GB VRAM)的用户。

命令格式::

python generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "一个文本描述" --image "参考图片路径" --audio "音频文件路径"

Parameter details::

  • task s2v-14B: 指定使用语音转视频(Speech-to-Video)任务。
  • size 1024*704: 设置生成视频的分辨率。视频的宽高比会根据输入的参考图像自动调整。
  • ckpt_dir ./Wan2.2-S2V-14B/: 指定已下载的模型文件路径。
  • offload_model True: 将模型部分组件卸载到CPU,以节约显存。
  • convert_model_dtype: 转换模型参数类型以优化性能。
  • prompt "...": 输入的文本提示,用于描述视频的风格、内容或主体。例如 "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。"The
  • image "...": 提供一张参考图像的路径,例如 "./examples/i2v_input.JPG"。模型将基于此图像的风格和主体进行创作。
  • audio "...": 提供驱动视频生成的音频文件路径,例如 "./examples/talk.wav"The

typical example::

python generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。" --image "examples/i2v_input.JPG" --audio "examples/talk.wav"

场景二:姿态驱动的语音视频生成

如果希望生成视频中的人物或主体遵循特定的动作,可以使用姿态驱动功能。

命令格式::

torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "一个文本描述" --image "参考图片路径" --audio "音频文件路径" --pose_video "姿态视频路径"

新增参数::

  • pose_video "...": 指定一个姿态参考视频的路径,例如 "./examples/pose.mp4"。模型会提取此视频中的动作序列,并应用到新生成的视频中。

typical example::

torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "一个人正在唱歌" --image "examples/pose.png" --audio "examples/sing.MP3" --pose_video "./examples/pose.mp4"

这个命令通常在多GPU环境下运行,以获得更好的性能。

application scenario

  1. 数字人与虚拟主播
    可以根据预先录制好的音频或实时语音输入,生成口型同步、表情自然的虚拟主播形象,并可通过姿态视频控制其动作,广泛用于直播、在线教育和新闻播报。
  2. 视频内容自动化生产
    将博客文章、新闻稿或小说等文本内容,搭配合适的背景音乐或旁白,自动转化为视频。这极大地提高了内容创作效率,适用于社交媒体、广告和营销领域。
  3. 音乐视频(MV)创作
    音乐创作者可以输入自己的歌曲,并提供符合歌曲意境的参考图片和文字描述,快速生成具有艺术感的音乐视频,为独立音乐人提供了一种低成本的MV制作方案。
  4. 个性化有声故事书
    为儿童故事配上音频旁白,并结合插画风格的参考图,生成生动的动画故事视频。家长或教育机构可以轻松地为孩子们创作定制化的视觉阅读材料。

QA

  1. 运行此模型对硬件有什么要求?
    在单GPU环境下运行14B参数的模型,至少需要80GB的显存(VRAM)。对于显存不足的用户,官方推荐使用多GPU配置来分担计算压力。
  2. 生成视频的时长是如何确定的?
    默认情况下,模型会根据输入音频文件的长度自动调整生成视频的时长。如果想快速预览或生成指定长度的片段,可以通过设置--num_clip参数来控制生成的视频剪辑数量。
  3. 我必须同时提供文本、图片和音频吗?
    不是。模型的核心驱动是音频,但可以灵活组合输入。最常见的用法是结合音频和参考图像,文本提示(prompt)是可选的,用于进一步指导视频的生成风格和内容。
  4. 姿态控制功能支持什么样的视频?
    姿态控制功能通过--pose_video参数实现,它会识别输入视频中的人体或物体的动作序列。理论上,任何包含清晰动作的视频都可以作为输入,模型会尝试在生成的视频中复现这些动作。
0Bookmarked
0kudos

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish