Gegenwärtig wird das System von der Sora
undKling
im Gesang antworten Runway
Bereich der KI-Videogenerierung, der durch Modelle wie das von Google Veo 3
Es zeichnet sich durch seine einzigartige Fähigkeit aus, native Audio- und Videosynchronisation zu erzeugen. Es rendert nicht nur Videomaterial in hoher Qualität, sondern stimmt es auch mit passenden Dialogen, Soundeffekten und Hintergrundmusik ab. Trotz seiner relativ hohen Nutzungskosten ist das Veo 3
Zweifellos eines der technisch umfangreichsten Modelle zur Videogenerierung, die derzeit auf dem Markt sind.
Dieser Artikel enthält eine eingehende Analyse der Veo 3
des Cue-Word-Engineerings, das alle Techniken von der grundlegenden Struktur bis zur fortgeschrittenen Audiokontrolle abdeckt. Die Beherrschung dieser Methoden führt nicht nur zu einer deutlichen Verbesserung der Videoqualität, sondern auch zu einer effektiven Reduzierung der Kosten, die durch wiederholtes Ausprobieren entstehen. Diese grundlegenden Cueing-Prinzipien sind auch auf andere wichtige Modelle der Videoerstellung anwendbar.
Wesentliche Zusammensetzung der Stichwörter
Präzise, spezifische Stichwörter sind die Grundlage für ein ideales Video. Ein gut strukturiertes Stichwort enthält normalerweise die folgenden zwei Arten von Schlüsselinformationen:
1. die Beschreibung des Kerninhalts
Dieser Abschnitt definiert das "Was" und "Wo" des Videos.
- Thema. Die Hauptfigur des Videos. Dies können eine oder mehrere Personen, Tiere oder Gegenstände sein. Ihre physischen Merkmale, wie ethnische Zugehörigkeit, Frisur, Kleidung usw., sollten so genau wie möglich beschrieben werden.
- Schauplatz. Die Umgebung, in der sich das Motiv befindet, z. B. Innenräume, Straßen in der Stadt, Wälder, am Meer usw.
- Aktion. Eine Handlung, die von der Testperson ausgeführt wird, z. B. Gehen, Springen, Sprechen oder Manipulation von Gegenständen.
2. audiovisuelle Stil-Einstellungen
In diesem Abschnitt werden das "Gefühl" und die "Präsentation" des Videos festgelegt.
- Stil. Der allgemeine künstlerische Stil des Videos, z. B. Film, Anime, Claymation, Ghibli-Stil.
- Kamerabewegung. Beschreiben Sie die Dynamik der Aufnahme, wie z. B. Schieben (Dolly in), Ziehen (Dolly out), Schwenken (Pan), Kamerafahrt usw. Professionelle Kamerakommandos können das filmische Gefühl eines Videos erheblich verbessern.
- Zusammensetzung. Der Bereich des Bildausschnitts, z. B. Nahaufnahme, mittlere Einstellung oder Totale. Es ist möglich, direkt auf die
MidJourney
Mittelreife kompositorische Stichworte. - Stimmung/Beleuchtung. Beschreiben Sie das Licht und den Ton des Bildes, z. B. warmer Ton, kühler Ton, unheimliches Glühen oder goldene Stunde.
Die folgenden zwei Beispiele verdeutlichen den enormen Einfluss des Stichwortes auf die Ergebnisse.
Einfache Stichwörter:
A man answers a rotary phone
Ausführliche Stichwörter:
A shaky dolly zoom goes from a far away blur to a close-up cinematic shot of a desperate man in a weathered green trench coat as he picks up a rotary phone mounted on a gritty brick wall, bathed in the eerie glow of a green neon sign. The zoom reveals the tension and the desperation etched on his face as he struggles to talk on the phone. The shallow depth of field focuses on his furrowed brow and the black rotary phone, blurring the background into a sea of neon colors and indistinct shadows, creating a sense of urgency and isolation.
Detaillierte Hinweise definieren nicht nur die Handlung, sondern sorgen auch für Stimmung, Licht, Schatten und ein Gefühl der Erzählung, was zu Videoclips von weitaus besserer Qualität führt.
Definieren Sie den visuellen Stil des Videos
Standardmäßig wird dieVeo 3
Das erzeugte Video hat eine professionelle, saubere kommerzielle oder filmische Qualität. Um einen einzigartigen visuellen Stil zu schaffen, muss dieser im Cue klar angegeben werden.
Die folgenden Beispiele verwenden dieselbe Kernbeschreibung, wenden aber unterschiedliche Stilrichtlinien an.
Original Core Cue Words:
A bearded man in a flannel shirt and weathered jeans sits cross-legged beside a flickering campfire, its amber light casting soft, dancing shadows across the pine-needle-strewn ground of a quiet forest clearing. Across from him, just beyond the edge of the firelight, stands a massive grizzly bear, calm and still, its fur catching the warm glow, eyes reflecting the flames with eerie intelligence. The two shake hands, like they’re old friends.
Fügen Sie am Anfang des obigen Stichworts Folgendes hinzu In the style of [style name]
Die Ergebnisse können sehr unterschiedlich sein, zum Beispiel: LEGO, Claymation, South Park, Pixar-Animation, 8-Bit-Retro, Graphic Novel, Origami, Simpsons, Blueprint, Anime oder Marmor. Simpsons, Blaupause, Anime oder Marmor.
Steuerung der Objektivbewegung
Die Kamerabewegung ist der Grundstein für die Sprache des Videos.Veo 3
Es wird eine breite Palette von Standard-Spiegelungsbefehlen unterstützt, zu denen in der Regel folgende gehören:
eye level
: Panorama-Objektivhigh angle
: Weitwinkelobjektivworm’s eye
:: Höhenaufnahme (Bugansicht)dolly shot
:: Push-Pull-Aufnahmen (physische Bewegung der Kamera)zoom shot
Zoomobjektiv (Vergrößern oder Verkleinern)pan shot
:: Schwenk (Kamera dreht sich horizontal an Ort und Stelle)tracking shot
: Folgen Sie der Kamera
Sie können zum Beispiel die Zoom in
Die Vergrößerung des Bildschirms erfolgt mit der Taste Left to right pan
Spiegelschwenken von links nach rechts erreichen.
Erzeugen Sie beliebte Videos im Selfie-Stil
Videos im Selfie-Stil sind wegen ihrer Authentizität und ihres Eintauchens in das Geschehen beliebt. Es ist wichtig, einen Blick auf die Veo 3
Um realistische Selfie-Videos zu erstellen, können Sie eine Kombination aus den folgenden drei Kernelementen verwenden:
A selfie video of...
Deklarieren Sie den Videotyp direkt als Selfie.holds the camera at arm’s length. His arm is clearly visible in the frame.
Beschreiben Sie, dass der Arm im Bild sichtbar ist, ein wichtiges Detail, das den Realismus erhöht.occasionally looking into the camera
:: Die Aktion "von Zeit zu Zeit in die Kamera schauen" kann die Figur lebendiger und natürlicher erscheinen lassen.
Beispiel:
A selfie video of a travel blogger exploring a bustling Tokyo street market. She’s wearing a vintage denim jacket and has excitement in her eyes. The afternoon sun creates beautiful shadows between the vendor stalls. She’s sampling different street foods while talking, occasionally looking into the camera before turning to point at interesting stalls. The image is slightly grainy, looks very film-like. She speaks in a British accent and says: “Okay, you have to try this place when you visit Tokyo. The takoyaki here is absolutely incredible, and the vendor just told me it’s been in his family for three generations.” She ends with a thumbs up.
Verbesserung der Vielfalt der erzielten Ergebnisse
zusammen mit MidJourney
Im Gegensatz zu Bildmodellen wieVeo 3
Bei einfachen Stichwörtern ist die Konvergenz der mehrfach generierten Ergebnisse hoch. Zum Beispiel, wenn man a woman laughs
Die mehrfach erstellten Videos können sich in Bezug auf Charaktere, Kleidung und Szenen sehr ähnlich sein.
Die einzige Möglichkeit, diese Homogenität zu durchbrechen und vielfältigere Ergebnisse zu erzielen, besteht darin, den Detaillierungsgrad und die Komplexität der Stichwörter zu erhöhen, d. h. der im ersten Teil vorgestellten erschöpfenden Struktur zu folgen.
So lassen sich beispielsweise durch Hinzufügen von Szenen- und Stimmungsdetails sehr unterschiedliche Ergebnisse erzielen:
Cue 1 (Büroszene).
a woman laughs long and loudly, she’s in an office meeting and she’s embarrassed afterwards
Aufforderung 2 (Familienszene).
a woman laughs quietly, she’s at home watching a tv show
Sicherstellung der Konsistenz bei der Charakterisierung
Die Wahrung der Zeichenkonsistenz über mehrere Videos hinweg ist der Schlüssel zur Erstellung narrativer Inhalte.
Bevorzugte Option: Bild-zu-Video
Die zuverlässigste Methode ist die Verwendung von Veo 3
Unterstützung für die Bildeingabe. Der empfohlene Arbeitsablauf besteht darin, zunächst ein professionelles Bildbearbeitungsprogramm (wie z. B. das MidJourney
(in Form eines Nominalausdrucks) omni reference
vielleicht Flux.1
(in Form eines Nominalausdrucks) Kontext
Modus), um ein konsistentes Zeichendiagramm zu erstellen, das dann als visuelle Referenz verwendet wird Veo 3
.
Option: Verwendung von textlichen Hinweisen
Wenn Sie keine Referenztabelle verwenden, können Sie die Veo 3
Erzeugen Sie Eigenschaften mit ähnlichen Ergebnissen unter demselben Stichwort. Der Trick besteht darin, die körperlichen Merkmale des Charakters in den Stichwörtern äußerst detailliert und konsistent zu beschreiben.
In den folgenden beiden Videoclips werden Stichwörter verwendet, die dieselben Charakterbeschreibungen enthalten und kaum Unterschiede in der Charakterisierung aufweisen.
Tipp 1.
John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: Hello, I am also John, and I look kind of the same as that guy over there (no subtitles!). He is in a bright light room.
Tipp 2.
John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: Hello, my name is John, I am a character invented for this blog post (no subtitles!)
Fortgeschrittene Videoerstellungstechniken in der Flow-Plattform
Veo 3
Integriert in Googles Flow
Die Plattform verfügt über einige einzigartige erweiterte Funktionen.
- Geben Sie Start- und Endframes an. Der Nutzer kann ein Startbild und ein Endbild hochladen, die
Veo 3
Ein Übergangsvideo zwischen den beiden wird automatisch generiert und eignet sich perfekt für die Erstellung dynamischer Übergänge. - Erweitern und Springen zu. Dies sind zwei Möglichkeiten zur Erweiterung und Ergänzung von Videos.
Extend
Wird verwendet, um die Generierung von Inhalten auf der Grundlage des letzten Frames des aktuellen Videos fortzusetzen, geeignet für die lineare Erweiterung der Geschichte.Jump to
Es ist eine Möglichkeit, eine Figur aus einem Video zu extrahieren und sie in einer völlig neuen Szene zu platzieren, die sich für die Erstellung kreativer Videos im Stil von "Character Crossing" eignet. - Zutaten zum Video. Dies ist eine leistungsstarke Fusionsfunktion, die es Nutzern ermöglicht, mehrere Referenzbilder (z. B. eine Figur, ein Objekt, einen Hintergrund) hochzuladen, die
Veo 3
Diese "Zutaten" werden in demselben generierten Video zusammengeführt. Derzeit ist diese Funktion nur verfügbar fürUltra
Abonnement-Benutzer ($250/Monat) sind offen.
Strategien für Audio Cue Words
Veo 3
Die zentrale Stärke ist die Audiogenerierung, und hier erfahren Sie, wie Sie den Audioinhalt präzise steuern können.
Erzeugen von Charakterdialogen
1. exakte Bezeichnung der Linien
Sie können den gesamten Text, den Ihre Figur zu sagen hat, direkt in das Stichwort schreiben. Aber seien Sie vorsichtig. Veo 3
Die Länge einer einzelnen Generation ist begrenzt (in der Regel 8 Sekunden). Zu lange Zeilen können zu einem schnellen und unnatürlichen Sprechtempo führen; zu kurze Zeilen können zu großen stummen Abschnitten oder zu sinnlosen Füllwörtern führen.
- Beispiel für eine lange Leitung.
John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: You have given me a really long prompt, and I have to speak very quickly and unnaturally to try and fit all these words into just 8 seconds, I’m going to be out of breath at the end of this, phew.
- Beispiel für eine kurze Zeile.
John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: Hello, I’m John.
2. die Festlegung von Zielen und die Erstellung von Linien durch KI
Eine effizientere Methode ist es, keine spezifischen Zeilen zu liefern, sondern eine Szene und ein Ziel für die Veo 3
Generieren Sie selbst Dialoginhalte. Dieser Ansatz führt in der Regel zu natürlicheren Ergebnissen.
- Die KI macht ihre eigenen Witze.
a standup comic tells an awkward joke at a music festival, sounds of distant bands, noisy crowd, ambient background of a busy festival field (no studio audience)
- Geben Sie den Inhalt bestimmter Witze an.
a standup comic tells an awkward joke at a music festival: You know what’s great about music festivals? Watching 20,000 people pretend they knew this band before today while filming vertical videos they’ll never watch.
Beispiele für Szenarien, in denen KI nützlich sein kann, sind Stand-up-Comedy, Diskussionen zwischen zwei Personen, Streit am Telefon und Figuren, die Geschichten erzählen.
Herausforderungen und aktueller Stand der Generierung chinesischer Sprache
Derzeit wird durch Veo 3
Die Erzeugung hochwertiger chinesischer Sprache ist nach wie vor eine Herausforderung.
- existieren
Flow
Auf der Plattform: Die Plattform akzeptiert derzeit nur englische Aufforderungswörter. Eine Abhilfe für die Generierung chinesischer Sprache ist die Verwendung von Hanyu Pinyin mit ausdrücklichen Anweisungen fürin Mandarin Chinese
. Aber selbst dann ist die erzeugte Sprache in der Regel nur in der Tonhöhe und der Mundform ähnlich, nicht dem Standard-Mandarin. - existieren
Gemini
Auf der Plattform:Gemini
Es erlaubt mehrsprachige Eingaben und kann direkt chinesische Untertitel schreiben. Allerdings ist sein Backend-Modell (derzeit meistVeo 3 Fast
) in der chinesischen Verarbeitung ist noch nicht zufriedenstellend.
Objektiv gesehen sind aufgrund der Unterschiede bei den Trainingsdaten und der Segmentierungstechnologie bei der Erzeugung chinesischer Sprache derzeit einige inländische Modelle (wie das von ByteDance 即梦
) hat eine größere Fähigkeit dazu gezeigt.
Wie man die Erstellung von Untertiteln vermeidet
Veo 3
der Trainingsdaten enthält eine große Anzahl von Videos mit Untertiteln, so dass die generierten Ergebnisse oft auch Untertitel enthalten. Um dies zu unterdrücken, versuchen Sie die folgenden beiden Ansätze:
- Einfügen von Zeilen in englische Doppelpunkte
:
Nach, anstelle der englischen Anführungszeichen""
innerhalb. Text in Anführungszeichen wird vom Modell eher als Untertitel interpretiert, der angezeigt werden soll. - Am Ende der Aufforderung explizit angeben
no subtitles
.
Musik generieren
Die Erstellung von Musik ist relativ einfach. Sie können den Musikstil, die Instrumentierung und das Tempo detailliert im Cue beschreiben oder nur eine allgemeine Richtung angeben (z. B. dramatic orchestral music
), so dass Veo 3
Erstellen Sie Ihr eigenes.