Der Durchbruch von Goku liegt in dem dynamischen Repräsentationssystem, das durch seine Stream-Transformationstechnik aufgebaut wird. Das System stellt durch einen räumlich-zeitlichen Aufmerksamkeitsmechanismus eine dichte Korrespondenz zwischen Videobildern her, wodurch das Modell in der Lage ist, Bewegungsabläufe auf Pixelebene vorherzusagen. Für die konkrete Umsetzung berechnet der Algorithmus die optischen Flussfelder der Merkmalskarten benachbarter Frames und kodiert diese Bewegungsinformationen dann in erlernbare Fluss-Token, die zusammen mit den regulären Inhalts-Token an der Selbstaufmerksamkeitsberechnung des Transformators teilnehmen.
Dieses Design bringt zwei große Vorteile mit sich: Erstens kann das Modell explizit die Gesetze der Objektbewegung modellieren, wie z. B. die physikalischen Eigenschaften des Schwungs von Kleidung oder des Flüssigkeitsflusses; und zweitens kann das System die Korrespondenz von Bildregionen über Frames hinweg invers ableiten und so die inhaltliche Konsistenz bei der Generierung langer Sequenzen sicherstellen. Bei der Text-zu-Video-Aufgabe führt die Technik zu einer Bewertung der Bewegungsnatürlichkeit von 4,8/5 für das generierte Video, was eine Verbesserung von 32% gegenüber dem reinen Diffusionsmodell darstellt.
Ein Testfall eines Unternehmens für Film- und Fernsehspezialeffekte zeigte, dass sich die Bewegungskontinuität der Kleidungsfalten in den von Goku generierten Animationsclips im Vergleich zur herkömmlichen Methode um 40% verbesserte, was sich besonders für virtuelle Charakterproduktionsszenen eignet, die eine feine Bewegungserfassung erfordern.
Diese Antwort stammt aus dem ArtikelGoku: Erzeugt detaillierte und konsistente Videos, ideal für die Erstellung von Werbespots mit detaillierten Figuren und Objekten.Die































