Lösungen für unnatürliche Bewegungen
ChatAnyone verwendet eine hierarchische Bewegungsdiffusionsmodellierungstechnologie, die speziell darauf optimiert ist, die Natürlichkeit digitaler menschlicher Bewegungen zu verbessern. Im Folgenden werden die spezifischen Lösungen beschrieben:
- Hochwertige Fotos eingebenStellen Sie sicher, dass Porträtfotos klar und vorwiegend frontal aufgenommen sind und keine Hindernisse im Bild sind. Offizielle Beispiele zeigen, dass frontale Porträts natürlichere Kopfbewegungen und Ausdrucksformen ermöglichen.
- Audioeingang optimierenVerwenden Sie Audiodateien mit klarer Aussprache und moderatem Sprechtempo. Das System generiert Lippensynchronisation und Mikroexpressionen basierend auf dem Audio-Rhythmus.
- BewegungsbereichskontrolleDerzeit zeigt das System einen angemessenen Bewegungsbereich an (z. B. 15°-30° Kopfdrehung), um übermäßige Verzerrungen zu vermeiden.
- Hardware-AnpassungErfordert eine leistungsstarke GPU (z. B. die 4090), um die Rechenleistung für eine flüssige Ausgabe mit 30 FPS zu gewährleisten.
Alternativer Ansatz: Nach der Veröffentlichung als Open Source kann versucht werden, die Modellparameter anzupassen, um bestimmte Aktionsstile anhand von Trainingsdaten zu optimieren. Derzeit können die Auswirkungen verschiedener Spracheingaben auf Aktionen anhand der offiziellen Demonstrationsvideos beobachtet werden.
Diese Antwort stammt aus dem ArtikelChatAnyone: ein Werkzeug zur Erstellung von digitalen Halbkörper-Porträtvideos aus FotosDie































