Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Wan2.2-S2V-14B ist ein umfangreiches KI-Modell, das vom Wan-AI-Team speziell für die Erstellung hochwertiger Videos auf der Grundlage von Audio, Text und Bildern entwickelt wurde. Es verwendet eine innovative Mixed-Expert-Architektur (MoE) mit insgesamt 27B Parametern im Modell, wobei jedoch nur 14B Parameter zur Laufzeit aktiviert werden, wodurch ein effektiver Ausgleich zwischen Leistung und Rechenkosten erreicht wird. Die Kernfunktion des Modells ist "sprachgesteuert" und kann den eingegebenen Sprachinhalt in Kombination mit vom Benutzer eingegebenen Textbeschreibungen und Referenzbildern in dynamische Videobilder umwandeln. Wan2.2-S2V-14B legt besonderes Augenmerk auf die "filmische Ästhetik" des generierten Videos, das anhand ausgewählter ästhetischer Daten trainiert wird, um ein höheres Niveau an Beleuchtung, Komposition und Farbe zu erreichen. Darüber hinaus unterstützt es eine Gestensteuerungsfunktion, die es dem Benutzer ermöglicht, die Bewegungen der Figuren im generierten Video durch ein Gestenvideo zu steuern, was einen höheren Grad an Freiheit bei der Videoerstellung bietet.

Funktionsliste

  • Sprachgesteuerte GenerierungDie Audiodatei wird als Haupttreiber verwendet und mit Textanweisungen und Referenzbildern kombiniert, um ein mit dem Audioinhalt synchronisiertes Video zu erzeugen.
  • Filmische Ästhetik: Die Modelle werden mit speziellen ästhetischen Daten trainiert, um Videos mit professioneller Beleuchtung, Komposition und Ton zu produzieren.
  • Hochauflösende AusgabeUnterstützt die Erstellung von Videos mit einer Auflösung von 480P und 720P, um die Anforderungen an die Klarheit verschiedener Szenen zu erfüllen.
  • LageregelungDer Benutzer kann ein Video mit einer bestimmten Aktion (Pose-Video) zur Verfügung stellen, und das Modell generiert ein Video, das auf dieser Aktionssequenz basiert und eine präzise Kontrolle der Pose der Figur ermöglicht.
  • Hybride Expertenarchitektur (MoE)Die Einführung einer effizienten MoE-Architektur sorgt für einen relativ geringen Verbrauch an Rechenressourcen und gewährleistet gleichzeitig eine starke Generierungsfähigkeit.
  • Flexible EingabekombinationenSie können nur Audio und Bilder verwenden oder zusätzliche Textbeschreibungen hinzufügen, was eine Vielzahl von kreativen Kombinationen ermöglicht.
  • Adaptive VideolängeWenn keine spezifischen Parameter eingestellt sind, wird die Länge des erzeugten Videos automatisch an die Länge des Eingangssignals angepasst.

Hilfe verwenden

Das Modell Wan2.2-S2V-14B bietet einen detaillierten Installations- und Verwendungsprozess, der es den Benutzern ermöglicht, schnell mit der Erstellung von Videos zu beginnen.

1. ökologische Vorbereitung und Installation

Zunächst müssen Sie das offizielle Code-Repository von GitHub klonen und die erforderlichen Abhängigkeits-Bibliotheken installieren.

Schritt 1: Klonen des Code-Repositorys
Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um den Projektcode lokal herunterzuladen:

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

Schritt 2: Installieren von Abhängigkeiten
Projekt-AbhängigkeitentorchDie Version muss größer oder gleich sein als2.4.0. Verwenden Sie dann diepipMontagerequirements.txtAlle in der Datei aufgeführten Bibliotheken.

pip install -r requirements.txt

zur Kenntnis nehmenWenn während der Installationflash_attnPaket nicht installiert werden kann, versuchen Sie zunächst, alle anderen Pakete zu installieren, und installieren Sie sie dann einzeln.flash_attn.

2. modellhafte Downloads

Auf die Modelldateien kann über diehuggingface-clivielleichtmodelscope-cliEinen Download durchführen.

Herunterladen mit Hugging Face CLI (Sie müssen diehuggingface_hub):

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-S2V-14B --local-dir ./Wan2.2-S2V-14B

Herunterladen mit der ModelScope CLI (Sie müssen diemodelscope):

pip install modelscope
modelscope download Wan-AI/Wan2.2-S2V-14B --local_dir ./Wan2.2-S2V-14B

Nach der Ausführung des Befehls werden die Modellgewichte und andere zugehörige Dateien in das aktuelle Verzeichnis desWan2.2-S2V-14BOrdner.

3. die Erstellung von Videos: Prozesse und Befehle

Das Modell unterstützt mehrere Modi der Videogenerierung, einschließlich der Inferenz mit einer einzelnen GPU und der verteilten Inferenz mit mehreren GPUs.

Szenario 1: Einfache Sprach-Video-Erzeugung (einzelne GPU)

Dies ist die einfachste Art der Nutzung und eignet sich für Benutzer, die über genügend Videospeicher verfügen (der offizielle Tipp lautet, dass Sie mindestens 80 GB VRAM benötigen).

Befehlsformat::

python generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "一个文本描述" --image "参考图片路径" --audio "音频文件路径"

Angaben zu den Parametern::

  • task s2v-14BSpeech-to-Video: Gibt die Verwendung der Aufgabe "Speech-to-Video" an.
  • size 1024*704Auflösung: Legen Sie die Auflösung des erzeugten Videos fest. Das Seitenverhältnis des Videos wird automatisch entsprechend dem eingegebenen Referenzbild angepasst.
  • ckpt_dir ./Wan2.2-S2V-14B/: Gibt den Pfad zur heruntergeladenen Modelldatei an.
  • offload_model TrueVerlagert einige Komponenten des Modells auf die CPU, um Videospeicher zu sparen.
  • convert_model_dtypeModellparametertypen umwandeln, um die Leistung zu optimieren.
  • prompt "..."Textstichwörter zur Beschreibung des Stils, des Inhalts oder des Themas des Videos eingeben. Beispiel. "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。".
  • image "...": Geben Sie einen Pfad zu einem Referenzbild an, z. B. "./examples/i2v_input.JPG". Die Modelle werden auf der Grundlage des Stils und des Themas des Bildes erstellt.
  • audio "...": Geben Sie den Pfad zur Audiodatei an, die durch das Laufwerksvideo erzeugt wird, z. B. "./examples/talk.wav".

typisches Beispiel::

python generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。" --image "examples/i2v_input.JPG" --audio "examples/talk.wav"

Szenario 2: Haltungsgesteuerte Sprach-Video-Generierung

Wenn Sie möchten, dass die Figur oder das Motiv im generierten Video einer bestimmten Aktion folgt, können Sie die gestengesteuerte Funktion verwenden.

Befehlsformat::

torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "一个文本描述" --image "参考图片路径" --audio "音频文件路径" --pose_video "姿态视频路径"

neuer Parameter::

  • pose_video "..."Pfad eines Posenreferenzvideos angeben, z. B. "./examples/pose.mp4". Das Modell extrahiert die Aktionssequenzen aus diesem Video und wendet sie auf das neu generierte Video an.

typisches Beispiel::

torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "一个人正在唱歌" --image "examples/pose.png" --audio "examples/sing.MP3" --pose_video "./examples/pose.mp4"

Dieser Befehl wird normalerweise in einer Multi-GPU-Umgebung ausgeführt, um die Leistung zu verbessern.

Anwendungsszenario

  1. Digitale Menschen und virtuelle Moderatoren
    Es kann ein virtuelles Ankerbild mit synchronisierter Mundform und natürlicher Mimik auf der Grundlage von zuvor aufgezeichneten Audio- oder Echtzeit-Spracheingaben erzeugen und seine Bewegungen durch Gestenvideo steuern, was bei Live-Übertragungen, Online-Bildung und Nachrichtensendungen weit verbreitet ist.
  2. Automatisierte Produktion von Videoinhalten
    Textinhalte wie Blogbeiträge, Pressemitteilungen oder Romane werden, gepaart mit passender Hintergrundmusik oder Erzählungen, automatisch in Videos umgewandelt. Dies verbessert die Effizienz der Inhaltserstellung für soziale Medien, Werbung und Marketing erheblich.
  3. Erstellung von Musikvideos (MV)
    Musikschaffende können ihre eigenen Songs eingeben und mit Referenzbildern und Textbeschreibungen versehen, die zur Stimmung des Songs passen, um schnell Musikvideos mit künstlerischer Note zu erstellen, was eine kostengünstige MV-Produktionslösung für unabhängige Musiker darstellt.
  4. Personalisierte Hörbücher
    Die Audioerzählung von Kindergeschichten, kombiniert mit illustrationsähnlichen Referenzzeichnungen, erzeugt lebendige animierte Geschichtenvideos. Eltern oder Bildungseinrichtungen können ganz einfach individuelles visuelles Lesematerial für Kinder erstellen.

QA

  1. Welche Hardware-Anforderungen sind für den Betrieb dieses Modells erforderlich?
    Die Ausführung eines Modells mit 14B Parametern in einer Einzel-GPU-Umgebung erfordert mindestens 80 GB Grafikspeicher (VRAM). Für Benutzer mit unzureichendem Videospeicher lautet die offizielle Empfehlung, eine Multi-GPU-Konfiguration zu verwenden, um den Rechenaufwand zu teilen.
  2. Wie wird die Länge des generierten Videos bestimmt?
    Standardmäßig passt das Modell die Länge des generierten Videos automatisch an die Länge der eingegebenen Audiodatei an. Wenn Sie schnell eine Vorschau anzeigen oder einen Clip mit einer bestimmten Länge generieren möchten, können Sie die Option--num_clipum die Anzahl der erzeugten Videoclips zu steuern.
  3. Muss ich Text, Bilder und Audio gleichzeitig bereitstellen?
    Nein. Der Hauptantrieb des Modells ist Audio, aber es besteht die Möglichkeit, Inputs zu kombinieren. Die häufigste Verwendung ist die Kombination von Audio und Referenzbildern, wobei Textaufforderungen (Prompts) optional sind, um weitere Hinweise zu Stil und Inhalt der Videoerstellung zu geben.
  4. Welche Art von Video wird von der Funktion Attitude Control unterstützt?
    Die Funktionen der Lageregelung werden über die--pose_videoParameterimplementierung erkennt es Aktionssequenzen eines menschlichen Körpers oder eines Objekts im Eingabevideo. Theoretisch kann jedes Video, das eindeutige Aktionen enthält, als Eingabe verwendet werden, und das Modell wird versuchen, diese Aktionen in dem generierten Video zu reproduzieren.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Neue Veröffentlichungen

zurück zum Anfang

de_DEDeutsch