Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

OmniAvatar ist ein Open-Source-Projekt, das gemeinsam von der Zhejiang University und Alibaba entwickelt wurde und sich auf die Erzeugung von Ganzkörper-Avatar-Videos durch Audioeingabe konzentriert. Auf der Grundlage von Deep-Learning-Techniken nutzt das Projekt Audio- und Texthinweise, um natürliche und reibungslose Avatar-Animationen zu generieren, insbesondere bei der Lippensynchronisation und der Koordination von Ganzkörperbewegungen.OmniAvatar unterstützt die Videogenerierung in einer Vielzahl von Szenarien wie Podcasts, interaktiven Dialogen und dynamischen Performances. Es verbessert die Genauigkeit der Lippensynchronisation und die Natürlichkeit der Bewegungen durch mehrstufige Audioeinbettung auf Pixelebene und LoRA-Trainingsmethoden. Der Projektcode und die Modellgewichte sind öffentlich verfügbar und können über GitHub abgerufen und lokal ausgeführt werden. OmniAvatar eignet sich für die Erstellung von Film-, Fernseh-, Spiele- und Social-Media-Inhalten und erzeugt hochwertige Avatar-Animationen.

 

Funktionsliste

  • Audiogesteuerte VideoerstellungGenerierung einer Ganzkörperanimation des Avatars auf der Grundlage des eingegebenen Tons, wobei die Lippenbewegungen in hohem Maße mit dem Ton synchronisiert sind.
  • Text-Prompt-SteuerungUnterstützung für die Steuerung von Emotionen, Bewegungen und Hintergrundumgebung von Avataren durch Textbefehle.
  • Mehrsprachige LippensynchronisationUnterstützt Lippensynchronisation in 31 Sprachen, darunter Chinesisch, Englisch und Japanisch.
  • GanzkörperkoordinationGenerieren Sie natürliche Schulterbewegungen, Gestenrhythmen und andere Ganzkörperanimationen.
  • Unterstützung von SzeneninteraktionDer Avatar kann mit den Objekten in der Szene interagieren, was sich für Szenen wie Produktvorführungen eignet.
  • Ausgänge mit mehreren AuflösungenUnterstützt 480p-Videos, geeignet für verschiedene Geräteanforderungen.
  • Unterstützung von Open-Source-ModellenEs sind Modelle mit 1,3B- und 14B-Parametern erhältlich, die für verschiedene Hardware-Konfigurationen geeignet sind.

Hilfe verwenden

Einbauverfahren

Um OmniAvatar zu verwenden, müssen Sie die Laufzeitumgebung lokal konfigurieren und das vortrainierte Modell herunterladen. Im Folgenden werden die einzelnen Schritte für die Installation und Verwendung beschrieben:

  1. Projektcode klonen
    Führen Sie den folgenden Befehl in einem Terminal aus, um das OmniAvatar-Code-Repository zu klonen:

    git clone https://github.com/Omni-Avatar/OmniAvatar.git
    

    Sobald das Klonen abgeschlossen ist, wechseln Sie in das Projektverzeichnis:

    cd OmniAvatar
    
  2. Installation von Abhängigkeiten
    Für das Projekt sind eine Python-Umgebung und bestimmte Bibliotheken mit Abhängigkeiten erforderlich. Führen Sie den folgenden Befehl aus, um PyTorch und andere Abhängigkeiten zu installieren:

    pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu124
    pip install -r requirements.txt
    

    Wenn Sie einen leistungsstarken Grafikprozessor haben, können Sie optional Folgendes installieren flash_attn Accelerated Attention Computing:

    pip install flash_attn
    
  3. Herunterladen des vortrainierten Modells
    OmniAvatar stützt sich auf mehrere vortrainierte Modelle, darunter Wan2.1-T2V-14B, wav2vec2-base-960h und OmniAvatar-14B. huggingface-cli Herunterladen:

    mkdir pretrained_models
    pip install "huggingface_hub[cli]"
    huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./pretrained_models/Wan2.1-T2V-14B
    huggingface-cli download facebook/wav2vec2-base-960h --local-dir ./pretrained_models/wav2vec2-base-960h
    huggingface-cli download OmniAvatar/OmniAvatar-14B --local-dir ./pretrained_models/OmniAvatar-14B
    

    Wenn die Hardware-Ressourcen begrenzt sind, können Sie das parametrische Modell 1.3B wählen und es auf ähnliche Weise herunterladen.

  4. Vorbereiten der Eingabedatei
    Erstellen Sie eine Eingabedatei (z. B. infer_samples.txt), die den Pfad zur Audiodatei und eine Textaufforderung enthält. Beispiel:

    audio_path: examples/audio/sample.wav
    prompt: "A happy person speaking in a bright room"
    

    Vergewissern Sie sich, dass die Audiodatei im WAV-Format vorliegt und dass die Texthinweise die Stimmung, die Handlung oder den Schauplatz der Figur eindeutig beschreiben.

  5. Ausführen von Inferenzskripten
    ausnutzen torchrun Führen Sie das Inferenzskript aus, um das Video zu erzeugen. Für das Modell 14B:

    torchrun --standalone --nproc_per_node=1 scripts/inference.py --config configs/inference.yaml --input_file examples/infer_samples.txt
    

    Für das Modell 1.3B:

    torchrun --standalone --nproc_per_node=1 scripts/inference.py --config configs/inference_1.3B.yaml --input_file examples/infer_samples.txt
    

    Das Ausgabevideo wird in dem angegebenen Ordner gespeichert (z. B. results) Medium.

Hauptfunktionen

  • Audio-gesteuertes Video generieren
    Der Benutzer muss ein Referenzbild und einen Audioclip vorbereiten. Das Referenzbild wird verwendet, um das Aussehen des Avatars zu definieren, und das Audio steuert die Lippen- und Ganzkörperbewegungen. Nach der Ausführung eines Inferenzskripts erzeugt das System ein synchronisiertes Video auf der Grundlage des Audios mit Lippenbewegungen, die genau auf den Rhythmus der Sprache abgestimmt sind. Wenn der Benutzer beispielsweise den Ton einer Rede eingibt, generiert OmniAvatar die natürlichen Gesten und Ausdrücke des Charakters, während er oder sie spricht.
  • Text-Prompt-Steuerung
    Mit Hilfe von Textaufforderungen kann der Benutzer die Emotionen des Avatars (z. B. "glücklich" oder "wütend"), Aktionen (z. B. "winken") oder den Hintergrund (z. B. "Strand") steuern. "Strand"). Die Hinweise sollten klar und spezifisch sein, z. B. "Eine überraschte Person tanzt in einem Wald". Das System passt die Details der Animation entsprechend den Hinweisen an.
  • Unterstützung mehrerer Sprachen
    OmniAvatar verwendet Wav2Vec2 zur Extraktion von Audiomerkmalen und unterstützt Lippensynchronisation in 31 Sprachen. Benutzer können Audiodaten in jeder der unterstützten Sprachen eingeben, und das System erzeugt automatisch die entsprechenden Lippenbewegungen ohne zusätzliche Konfiguration.
  • Szene Interaktion
    Durch Hinzufügen einer Beschreibung der Objektinteraktion (z. B. "hält eine Tasse") zu den Textaufforderungen kann der Avatar mit Objekten der Szene interagieren, die sich für die Anzeige von E-Commerce oder die Animation der Handlung eignen.

caveat

  • Hardware-VoraussetzungDas 14B-Modell erfordert einen Hochleistungs-Grafikprozessor (z. B. A6000), und das 1,3B-Modell ist für Consumer-Hardware mit 8 GB VRAM geeignet.
  • Geschwindigkeit der ErzeugungDas 14B-Modell benötigt etwa 30 Sekunden pro Bild auf einer einzelnen GPU, das 1,3B-Modell ist schneller und eignet sich für Geräte der unteren Leistungsklasse.
  • AusgabekontrolleNach der Erstellung des Videos überprüfen Sie die MP4-Datei im Ausgabeordner, um sicherzustellen, dass die Lippen synchronisiert sind und die Bewegungen natürlich wirken.

Anwendungsszenario

  1. Podcast-Videoproduktion
    OmniAvatar sorgt dafür, dass die Lippenbewegungen mit dem Ton synchronisiert werden, und ist damit ideal für die schnelle Produktion hochwertiger Podcast-Inhalte.
  2. Virtuelle Ankererstellung
    Ersteller von sozialen Medien können OmniAvatar verwenden, um Videos mit virtuellen Moderatoren zu erstellen, die eine Echtzeit-Textsteuerung von Stimmung und Kontext für Live- oder Kurzvideoplattformen unterstützen.
  3. Film, TV und Spieleanimation
    Film-, Fernseh- und Spieleentwickler können OmniAvatar nutzen, um schnell Charakteranimationen zu erstellen und die Kosten für herkömmliche Animationen zu senken, insbesondere bei Projekten, die viele Dialogszenen erfordern.
  4. E-Commerce Produkt-Schaufenster
    Über die Funktion zur Interaktion mit der Szene können Avatare Produkte (z. B. Kleidung oder elektronische Geräte) anzeigen, um den Realismus von Marketinginhalten zu erhöhen.

QA

  1. Welche Sprachen unterstützt OmniAvatar für die Audioeingabe?
    Es werden 31 Sprachen unterstützt, darunter Chinesisch, Englisch, Japanisch usw. Die Lippensynchronität wird durch das Wav2Vec2-Modell gewährleistet.
  2. Welche Hardwarekonfiguration ist für den Betrieb erforderlich?
    1,3B-Modelle erfordern mindestens 8 GB VRAM, und für 14B-Modelle wird ein Grafikprozessor der Rechenzentrumsklasse empfohlen (z. B. A6000).
  3. Wie hoch ist die Auflösung des erzeugten Videos?
    Unterstützt derzeit eine Auflösung von 480p, kann aber in Zukunft auf höhere Auflösungen erweitert werden.
  4. Wie kann ich meine Generierungsgeschwindigkeit verbessern?
    Versuchen Sie das Modell 1.3B oder installieren Sie flash_attn Accelerated Attention Computing.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch