Als multifunktionale Generierungsplattform bietet Goku drei funktionale Kernmodule: Text zu Video (T2V), Bild zu Video (I2V) und Text zu Bild (T2I). Jedes Modul verwendet eine einheitliche Grundarchitektur, jedoch mit spezifischen Teilnetzen, die für unterschiedliche Aufgaben optimiert sind. So enthält das I2V-Modul beispielsweise einen speziellen Bewegungsvorhersage-Header, der potenzielle Bewegungshinweise im Eingangsbild analysiert, während das T2V-Modul das Training der text-visuellen Ausrichtung verbessert, um eine semantisch korrekte Darstellung zu gewährleisten.
Die Daten des Leistungstests zeigen, dass der CLIP-Score von Goku bei der MSR-VTT-Text-zu-Video-Aufgabe 0,82 erreicht und damit die gängigen kommerziellen Lösungen übertrifft. Seine Bild-zu-Video-Konvertierungsgenauigkeit erreicht 89% auf dem Something-Something-V2-Datensatz, und es ist besonders gut im Umgang mit Befehlen wie "Öffne ein Buch", die das Verständnis von Objektinteraktionen erfordern. Bei der Generierung von Text in Bilder erreicht das Modell einen FID-Wert von 3,7 auf dem COCO-Datensatz und erzeugt Bilder mit einer Detailgenauigkeit, die mit der professioneller Fotografien vergleichbar ist.
Der Anwendungsbericht eines multinationalen Werbekonzerns wies darauf hin, dass durch die Verwendung der einheitlichen Schnittstelle von Goku für die gleichzeitige Gestaltung von Print- und Videoanzeigen die Projektlaufzeit um 60% verkürzt und die Konsistenz des medienübergreifenden Inhaltsstils auf 98% verbessert wurde.
Diese Antwort stammt aus dem ArtikelGoku: Erzeugt detaillierte und konsistente Videos, ideal für die Erstellung von Werbespots mit detaillierten Figuren und Objekten.Die




























