Um die besten Generierungsergebnisse zu erzielen, können Sie die folgenden praktischen Tipps befolgen:
Vorbereitung des Eingangsmaterials:
- Auswahl von hochauflösenden (≥512×512), hochauflösenden Quellbildern
- Stellen Sie sicher, dass die Audio-Abtastrate 16kHz beträgt, WAV-Format
- Beseitigt Hintergrundgeräusche in Audiodateien, um klare Sprache zu gewährleisten
Empfehlungen für Parametereinstellungen:
--audio_cfg_scale
Balance von Natürlichkeit und Synchronisationsgenauigkeit zwischen 5-7--prompt_cfg_scale
:: Einstellung der Schlagkraft des Queues zwischen 3-5- Übungsintensität: durch
--audio_weight
Steuert die Amplitude der Bewegung (der Standardwert gilt für die meisten Szenarien)
Stichwort Wortoptimierung:
- Die Beschreibungen sind präzise und spezifisch, wie z. B. "Die Figur nickt fröhlich".
- Vermeiden Sie lange und vage Beschreibungen
- Experimentieren Sie mit verschiedenen Arten von Schlagwortkombinationen
Optimierung der Leistung:
- Verringert die Speichermenge, wenn ein Speichermangel vorliegt.
--image_size
vielleicht--max_num_frames
- Montage
flash_attn
Verbessert die Effizienz der Berechnungen - 32 GB oder mehr Videospeicher für ein optimales Erlebnis
Tipps für Fortgeschrittene:
- Erhöhen Sie bei Zeichentrickfiguren den Bewegungsradius entsprechend, um sie lebendiger zu machen.
- Lehrvideos verbessern die mündliche Verständlichkeit
- Probieren Sie übertriebene Emoji-Effekte für soziale Unterhaltungsinhalte aus
Diese Antwort stammt aus dem ArtikelFantasyTalking: ein Open-Source-Tool zur Erstellung realistisch sprechender PorträtsDie