O Wan2.2-S2V-14B é um modelo de IA de grande escala desenvolvido pela equipe do Wan-AI especificamente para gerar vídeos de alta qualidade com base em áudio, texto e imagens. Ele adota uma arquitetura inovadora de especialista misto (MoE), com um total de 27 bilhões de parâmetros no modelo, mas apenas 14 bilhões de parâmetros são ativados em tempo de execução, equilibrando de forma eficaz o desempenho e o custo computacional. A função principal do modelo é "orientada por fala", que pode transformar o conteúdo da fala de entrada, combinado com descrições de texto fornecidas pelo usuário e imagens de referência, em imagens de vídeo dinâmicas. O Wan2.2-S2V-14B dá atenção especial à "estética cinematográfica" do vídeo gerado, que é treinado em dados estéticos selecionados para atingir níveis mais altos de iluminação, composição e cor. Além disso, ele suporta uma função de controle de gestos que permite ao usuário orientar os movimentos dos personagens no vídeo gerado por meio de um vídeo de gestos, proporcionando um maior grau de liberdade na criação de vídeos.
Lista de funções
- Geração orientada por falaUso do arquivo de áudio como o driver principal, combinado com dicas textuais e imagens de referência para gerar um vídeo sincronizado com o conteúdo de áudio.
- Estética cinematográficaModelos: são treinados com dados estéticos especiais para produzir vídeos com iluminação, composição e tom profissionais.
- Saída de alta resoluçãoSuporte à geração de vídeos com resolução de 480P e 720P para atender às necessidades de clareza de diferentes cenas.
- controle de atitudeVídeo de pose: O usuário pode fornecer um vídeo com uma ação específica (vídeo de pose), e o modelo gerará um vídeo com base nessa sequência de ações, permitindo o controle preciso da pose do personagem.
- Arquitetura especializada híbrida (MoE)Adoção de uma arquitetura de MoE eficiente que mantém um consumo relativamente baixo de recursos computacionais e, ao mesmo tempo, garante fortes recursos de geração.
- Combinações flexíveis de entradaDescrição: Você pode usar somente áudio e imagens ou adicionar descrições de texto, o que proporciona uma variedade de combinações criativas.
- Duração adaptável do vídeoQuando nenhum parâmetro específico é definido, a duração do vídeo gerado é ajustada automaticamente de acordo com a duração do áudio de entrada.
Usando a Ajuda
O modelo Wan2.2-S2V-14B oferece um processo detalhado de instalação e uso que permite que os usuários implementem rapidamente e comecem a gerar vídeos.
1. preparação e instalação do ambiente
Primeiro, você precisa clonar o repositório de código oficial do GitHub e instalar as bibliotecas de dependência necessárias.
Etapa 1: clonar o repositório de código
Abra um terminal e execute o seguinte comando para fazer o download do código do projeto localmente:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
Etapa 2: Instalar dependências
Dependências do projetotorch
A versão precisa ser maior ou igual a2.4.0
. Em seguida, use opip
montagemrequirements.txt
Todas as bibliotecas listadas no arquivo.
pip install -r requirements.txt
tomar nota deSe durante a instalaçãoflash_attn
não for instalado, tente instalar todos os outros pacotes primeiro e, em seguida, instale-os individualmente.flash_attn
.
2. downloads de modelos
Os arquivos de modelo podem ser acessados por meio dohuggingface-cli
talvezmodelscope-cli
Faça um download.
Download com a CLI do Hugging Face (Você precisa instalar ohuggingface_hub
):
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-S2V-14B --local-dir ./Wan2.2-S2V-14B
Download com a CLI do ModelScope (Você precisa instalar omodelscope
):
pip install modelscope
modelscope download Wan-AI/Wan2.2-S2V-14B --local_dir ./Wan2.2-S2V-14B
Após a execução do comando, os pesos do modelo e outros arquivos relacionados serão baixados para o diretório atual doWan2.2-S2V-14B
pasta.
3. geração de vídeos: processos e comandos
O modelo suporta vários modos de geração de vídeo, incluindo inferência de GPU única e inferência distribuída de várias GPUs.
Cenário 1: geração básica de fala e vídeo (GPU única)
Essa é a maneira mais básica de usá-lo e é adequada para usuários que têm memória de vídeo suficiente (a dica oficial é que você precisa de pelo menos 80 GB de VRAM).
formato de comando::
python generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "一个文本描述" --image "参考图片路径" --audio "音频文件路径"
Detalhes do parâmetro::
task s2v-14B
Fala para vídeo: Especifica o uso da tarefa de fala para vídeo.size 1024*704
Resolução: Defina a resolução do vídeo gerado. A relação de aspecto do vídeo é ajustada automaticamente de acordo com a imagem de referência de entrada.ckpt_dir ./Wan2.2-S2V-14B/
Especifica o caminho para o arquivo de modelo baixado.offload_model True
Memória de vídeo: descarrega alguns componentes do modelo na CPU para economizar memória de vídeo.convert_model_dtype
Conversão dos tipos de parâmetros do modelo para otimizar o desempenho.prompt "..."
Texto: Insira dicas de texto para descrever o estilo, o conteúdo ou o assunto do vídeo. Exemplo."夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。"
.image "..."
Imagem de referência: Forneça um caminho para uma imagem de referência, por exemplo."./examples/i2v_input.JPG"
. Os modelos serão criados com base no estilo e no tema da imagem.audio "..."
Caminho para o arquivo de áudio gerado pelo vídeo da unidade: forneça o caminho para o arquivo de áudio gerado pelo vídeo da unidade, por exemplo"./examples/talk.wav"
.
exemplo típico::
python generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。" --image "examples/i2v_input.JPG" --audio "examples/talk.wav"
Cenário 2: geração de vídeos de fala orientada pela postura
Se você quiser que o personagem ou sujeito no vídeo gerado siga uma ação específica, poderá usar o recurso orientado por gestos.
formato de comando::
torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "一个文本描述" --image "参考图片路径" --audio "音频文件路径" --pose_video "姿态视频路径"
novo parâmetro::
pose_video "..."
Especifique o caminho de um vídeo de referência de pose, por exemplo"./examples/pose.mp4"
. O modelo extrai as sequências de ação desse vídeo e as aplica ao vídeo recém-gerado.
exemplo típico::
torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "一个人正在唱歌" --image "examples/pose.png" --audio "examples/sing.MP3" --pose_video "./examples/pose.mp4"
Esse comando geralmente é executado em um ambiente com várias GPUs para melhorar o desempenho.
cenário do aplicativo
- Pessoas digitais e âncoras virtuais
Ele pode gerar uma imagem de âncora virtual com formato de boca sincronizado e expressão natural com base em áudio pré-gravado ou entrada de voz em tempo real, e pode controlar seus movimentos por meio de vídeo com gestos, o que é amplamente usado em transmissões ao vivo, educação on-line e transmissão de notícias. - Produção automatizada de conteúdo de vídeo
O conteúdo de texto, como postagens de blog, comunicados à imprensa ou romances, combinado com música de fundo ou narração apropriada, é automaticamente convertido em vídeos. Isso aumenta muito a eficiência da criação de conteúdo para mídia social, publicidade e marketing. - Criação de vídeo musical (MV)
Os criadores de música podem inserir suas próprias músicas e fornecer imagens de referência e descrições de texto que combinem com o clima da música para gerar rapidamente vídeos musicais com um toque artístico, fornecendo uma solução de produção de MV de baixo custo para músicos independentes. - Audiolivros personalizados
A narração de áudio para histórias infantis, combinada com desenhos de referência no estilo de ilustração, gera vídeos de histórias animadas e vívidas. Os pais ou as instituições educacionais podem criar facilmente materiais de leitura visual personalizados para as crianças.
QA
- Quais são os requisitos de hardware para executar esse modelo?
A execução de um modelo com 14 bilhões de parâmetros em um único ambiente de GPU requer pelo menos 80 GB de memória gráfica (VRAM). Para usuários com memória de vídeo insuficiente, a recomendação oficial é usar uma configuração de várias GPUs para compartilhar a pressão computacional. - Como é determinada a duração do vídeo gerado?
Por padrão, o modelo ajusta automaticamente a duração do vídeo gerado de acordo com a duração do arquivo de áudio de entrada. Se quiser visualizar rapidamente ou gerar um clipe com uma duração específica, você pode definir a opção--num_clip
para controlar o número de clipes de vídeo gerados. - Tenho que fornecer texto, imagens e áudio ao mesmo tempo?
Não é. O principal acionador do modelo é o áudio, mas há flexibilidade para combinar entradas. O uso mais comum é combinar áudio e imagens de referência, com prompts de texto (prompts) opcionais para orientação adicional sobre o estilo e o conteúdo do vídeo gerado. - Que tipo de vídeo é compatível com o recurso Attitude Control?
As funções de controle de atitude são fornecidas por meio do--pose_video
Na implementação do parâmetro, ele reconhecerá as sequências de ação de um corpo humano ou de um objeto no vídeo de entrada. Teoricamente, qualquer vídeo que contenha ações claras pode ser usado como entrada, e o modelo tentará reproduzir essas ações no vídeo gerado.