Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

OmniInsert ist ein Forschungsprojekt, das vom ByteDance Intelligent Creation Lab entwickelt wurde. Es handelt sich um ein Werkzeug, mit dem jedes beliebige Referenzobjekt nahtlos in ein Video eingefügt werden kann, ohne dass eine Maske erforderlich ist. Bei der herkömmlichen Videobearbeitung muss man, wenn man ein neues Objekt in ein Video einfügen möchte, in der Regel manuell eine präzise "Maske" erstellen, um das Objekt einzurahmen, was ein sehr komplizierter und zeitaufwändiger Prozess ist. Das Hauptmerkmal von OmniInsert ist die Verwendung von Diffusionstransformatormodellen (DTM), um diesen Prozess zu automatisieren. Der Benutzer muss lediglich ein Originalvideo und das einzufügende Objekt (entweder ein Bild oder ein anderes Video) bereitstellen, und das Modell fügt das Objekt auf natürliche Weise in die neue Szene ein. Es behandelt automatisch Beleuchtung, Schatten und Farben, damit das eingefügte Objekt so aussieht, als wäre es bereits in der Szene vorhanden. Das Projekt zielt darauf ab, zentrale Herausforderungen wie Datenknappheit, Motiv-Szenen-Fusion und Koordinierung zu bewältigen, und hat ein Projekt namens InsertBench neue Rubriken, um ihre Wirksamkeit zu messen.

Funktionsliste

  • Maskenloses EinsetzenDas Modell kann Referenzobjekte automatisch und nahtlos in das Zielvideo einfügen, ohne dass der Benutzer manuell Masken erstellen muss.
  • Unterstützt mehrere ReferenzquellenEinfügen von einzelnen oder mehreren Referenzobjekten wird unterstützt, und die Referenzen können aus Standbildern oder Videoclips bestehen.
  • Integration von SzenenAutomatisches Anpassen von Beleuchtung, Schatten und Farbtönen der eingefügten Objekte, um sie an den Stil des Videohintergrunds anzupassen und einen harmonischen visuellen Effekt zu erzielen.
  • Das wesentliche Erscheinungsbild wird beibehalten: mit Hilfe einer Datei namens Subject-Focused Loss Technologie, um sicherzustellen, dass eingefügte Objekte im Video gestochen scharf und einheitlich aussehen.
  • kontextabhängigVerwertung Context-Aware Rephraser Das Modul versteht den Kontext des Videos, so dass die eingefügten Objekte besser in die Originalszene integriert werden.
  • Automatisierte Datenpipelines: Das Projekt verwendet intern ein Projekt namens InsertPipe einer Datenpipeline, die automatisch große Mengen unterschiedlicher Daten für das Modelltraining erzeugen kann.

Hilfe verwenden

OmniInsert ist derzeit ein Forschungsprojekt, und sein Inferenzcode wurde noch nicht veröffentlicht. Daher ist es für allgemeine Nutzer noch nicht zum direkten Herunterladen und Installieren verfügbar. Der folgende Inhalt basiert auf dem veröffentlichten technischen Bericht, der eine ausführliche Beschreibung des möglichen künftigen Nutzungsprozesses und der technischen Grundprinzipien enthält, damit die Nutzer verstehen, wie es funktioniert.

Verwendungszweck Prozess

Wenn der Code für OmniInsert veröffentlicht wird, soll der Prozess der Verwendung sehr sauber sein. Die Benutzer werden keine spezielle Videobearbeitungssoftware und -kenntnisse mehr benötigen, wie z. B. Adobe After Effects oder die Technologie der dynamischen Maskierung (Rotoscoping) in DaVinci Resolve.

  1. Material vorbereiten::
    • Zielvideo: Bereiten Sie eine Videodatei vor, zu der Sie ein Objekt hinzufügen möchten (z. B. ein Video einer Straßenszene).
    • ReferenzobjektBild oder Video vorbereiten, das das Objekt enthält, das Sie einfügen möchten (z. B. ein Foto einer bestimmten Person oder einen kurzen Film über ein laufendes Haustier).
  2. Input liefern::
    • Starten Sie das Programm OmniInsert (entweder über die Befehlszeilenschnittstelle oder eine einfache grafische Schnittstelle).
    • Geben Sie den Dateipfad des "Zielvideos" und den Dateipfad des "Referenzobjekts" entsprechend den Anweisungen an.
  3. Grundierungsprozess::
    • Führen Sie den Befehl generate aus. Das Modell beginnt mit der Analyse jedes Einzelbildes des Zielvideos und extrahiert dabei die wichtigsten Merkmale des Referenzobjekts.
  4. Automatische Verschmelzung und Generierung::
    • Das Modell erkennt das Referenzobjekt automatisch und "klebt" es an die richtige Stelle im Zielvideo.
    • Im Hintergrund führt das Modell komplexe Berechnungen durch, um Größe, Winkel, Beleuchtung und Farbe der eingefügten Objekte so anzupassen, dass sie wie ein Teil des Originalvideos aussehen. Wenn beispielsweise die Szene des Originalvideos schwach beleuchtet ist, wird das eingefügte Objekt entsprechend abgedunkelt.
    • Wenn die Verarbeitung abgeschlossen ist, gibt das Programm eine neue Videodatei aus. Dieses neue Video ist das Ergebnis, das bereits das eingefügte Objekt enthält.

Prinzip der Demontage der Kerntechnologie

Damit die Benutzer verstehen, wie OmniInsert das "maskenlose Einfügen" ermöglicht, werden wir die Schlüsseltechnologien dahinter auf einfache Weise vorstellen:

  1. Modell des Diffusionstransformators
    Dies ist die technische Grundlage von OmniInsert. Stellen Sie sich das Programm wie einen hochqualifizierten "Restaurationsmaler" vor. Das Diffusionsmodell arbeitet, indem es einem klaren Bild wiederholt winzige Rauschanteile hinzufügt, bis das Bild zu einer zufälligen Schneeflocke wird. Das Modell lernt dann, wie es den Prozess Schritt für Schritt "rückgängig" machen kann, d. h. das ursprüngliche klare Bild aus den Schneeflocken wiederherstellen kann. In OmniInsert wird dieser Prozess für die Videogenerierung verwendet: Das Modell stellt nicht nur das Bild wieder her, sondern zeichnet während der Wiederherstellung des Bildes geschickt Objekte in das Video, basierend auf dem "Referenzobjekt" und dem "Zielvideo", die Sie als Bedingungen angeben. In jedem Einzelbild des Videos werden auf der Grundlage der von Ihnen angegebenen Bedingungen für das "Referenzobjekt" und das "Zielvideo" Objekte eingefügt.
  2. Konditionsspezifische Feature-Injektion
    Der Mechanismus klingt kompliziert, aber das Prinzip ist einfach. Das Modell muss zwei Dinge gleichzeitig wissen: wie die Szene des "Zielvideos" aussieht und wie das "Referenzobjekt" aussieht. Um diese beiden Informationen nicht zu verwechseln, entwirft das Modell verschiedene "Kanäle", um diese beiden Informationen getrennt einzuspeisen. Ein Kanal ist den Merkmalen des Videohintergrunds gewidmet (z. B. dem Layout der Szene, der Beleuchtung), der andere Kanal den Merkmalen des Referenzobjekts (z. B. dem Aussehen der Person, der Farbe des Fells der Katze). Auf diese Weise weiß das Modell genau, "was es wohin setzen muss", um ein Gleichgewicht zwischen dem Objekt und der Szene herzustellen.
  3. Progressive Ausbildung
    Um das Modell dazu zu bringen, den Videohintergrund und das eingefügte Objekt besser auszubalancieren, verwendeten die Forscher eine clevere Trainingsmethode. In den ersten Phasen des Trainings konzentrierte sich das Modell mehr auf das Referenzobjekt selbst, um sicherzustellen, dass es dieses Objekt genau zeichnen konnte. In den späteren Trainingsphasen wurde die Bedeutung der Zielvideoszene schrittweise erhöht, so dass das Modell lernen konnte, das gezeichnete Objekt auf natürliche Weise in seine Umgebung zu integrieren. Dieser Prozess ist vergleichbar mit dem Erlernen des Zeichnens: Zuerst lernt man, Menschen zu zeichnen, dann lernt man, Menschen in der Landschaft zu zeichnen und mit Licht- und Schattenverhältnissen umzugehen.
  4. Insertive Präferenz-Optimierung
    Um Ergebnisse zu erzielen, die für den Menschen ästhetisch ansprechender sind, wird im Rahmen des Projekts auch eine Optimierungsmethode eingeführt, die die menschlichen Vorlieben nachahmt. Die Forscher könnten eine Reihe von Bewertungskriterien verwenden, um dem Modell mitzuteilen, welche Art von Einfügung "gut" ist (z. B. nahtlos, natürlich) und welche Art von Effekt "schlecht" ist (z. B. sichtbare Kanten, unpassende Beleuchtung). Durch diese Art der Feinabstimmung lernt das Modell allmählich, realistischere und ansprechendere Videos zu produzieren.

Anwendungsszenario

  1. Postproduktion und Spezialeffekte für Film und Fernsehen
    In der Film- und Fernsehproduktion ist es oft notwendig, computergenerierte Figuren oder Objekte in Live-Action-Szenen einzufügen. Herkömmliche Methoden sind kostspielig und zeitaufwändig. Mit OmniInsert können kleine Studios und sogar einzelne Produzenten schnell virtuelle Charaktere oder Requisiten in Live-Action-Filmmaterial einfügen und so die Schwelle und die Kosten für die Produktion von Spezialeffekten erheblich senken. In einem Science-Fiction-Kurzfilm zum Beispiel kann ein Produzent einfach ein Bild einer außerirdischen Kreatur in ein Video einer Stadtstraße einfügen.
  2. Werbung und Marketing
    Werbetreibende können diese Technologie für eine "virtuelle Produktplatzierung" nutzen. So kann beispielsweise ein neu auf den Markt gebrachtes Produkt (z. B. ein Getränk, ein Mobiltelefon) nahtlos in ein bestehendes beliebtes Video oder einen Filmclip eingefügt werden, ohne dass die Szene neu gedreht werden muss. Dies ist nicht nur kosteneffizient, sondern ermöglicht auch einen schnellen Wechsel des Produkts, um es an unterschiedliche Märkte und Zielgruppen anzupassen.
  3. Soziale Medien und Erstellung von Inhalten
    Für Videoblogger und Inhaltsersteller bietet OmniInsert ein leistungsstarkes Tool zur Erstellung von Inhalten. Sie können ganz einfach beliebte Emojis, Anime-Figuren oder andere interessante Elemente aus dem Internet in ihre Videos einfügen, um kreativere und unterhaltsamere Inhalte zu erstellen, die mehr Zuschauer anziehen.
  4. Persönliche Freizeit- und Lebensaufzeichnungen
    Gewöhnliche Benutzer können damit lustige Familienvideos erstellen. Fügen Sie beispielsweise die Lieblings-Cartoonfigur Ihres Kindes in das Video von dessen Geburtstagsfeier ein oder fügen Sie ein virtuelles Haustier in ein Video ein, das das tägliche Leben Ihrer Familie aufzeichnet, um Ihrem Leben einen Hauch von Spaß zu verleihen.

QA

  1. Wie unterscheidet sich OmniInsert von herkömmlichen Video-Keying- und Greenscreen-Techniken?
    Der große Unterschied besteht darin, dass OmniInsert kein "Keying" oder "Green-Screening" erfordert. Während bei herkömmlichen Techniken ein fester Hintergrund (z. B. grün oder blau) erforderlich ist, um das Motiv leicht zu isolieren, oder der Videobearbeiter Bild für Bild manuell Masken zeichnen muss, um das Motiv zu isolieren, ist OmniInsert vollautomatisch und vereinfacht den Prozess, indem das Motiv direkt aus einem Bild oder Video mit einfarbigem Hintergrund identifiziert und nahtlos in ein anderes Video eingefügt wird.
  2. Kann dieses Werkzeug jede Art von Objekt einfügen?
    Dem technischen Bericht zufolge ist das Modell so konzipiert, dass es das Einfügen "beliebiger Referenzobjekte" unterstützt. Das bedeutet, dass entweder eine Figur, ein Tier oder ein gewöhnliches Objekt theoretisch als Referenzquelle verwendet werden kann. Es werden nicht nur einzelne Objekte, sondern auch mehrere Objekte unterstützt. Das Endergebnis kann jedoch immer noch von Faktoren wie der Klarheit des Referenzobjekts, den Lichtverhältnissen und der Übereinstimmung mit der Zielvideoszene beeinflusst werden.
  3. Ist die Nutzung von OmniInsert kostenlos? Wann wird der Code veröffentlicht?
    OmniInsert ist ein Forschungsprojekt, dessen Forschungsunterlagen jetzt öffentlich zugänglich sind. Laut seiner GitHub-Seite sind der Code, die Modelle und InsertBench Der Überprüfungsdatensatz soll in Zukunft für die Öffentlichkeit freigegeben werden, um die Forschung in verwandten Bereichen zu fördern. Das Projekt unterliegt der Apache-2.0-Open-Source-Lizenz, was bedeutet, dass es nach seiner Freigabe voraussichtlich frei für Forschung und Entwicklung sein wird.
  4. Welche Computerkonfiguration benötige ich für die Verwendung dieses Tools?
    Obwohl die spezifischen Anforderungen noch nicht offiziell bekannt gegeben wurden, kann aufgrund des verwendeten Diffusionskonvertermodells davon ausgegangen werden, dass es hohe Rechenressourcen erfordert, insbesondere einen leistungsstarken Grafikprozessor (GPU) und ausreichend Grafikspeicher (VRAM). Diese Art von Modellen stellt in der Regel höhere Anforderungen an die Hardware bei der Durchführung von Inferenzberechnungen, so dass sie sehr langsam laufen oder sogar auf Verbrauchern oder Computern ohne diskrete Grafikkarten nicht durchführbar sein können.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Neue Veröffentlichungen

zurück zum Anfang

de_DEDeutsch