Es gibt drei Arten von Kern-Eingabedateien, die für die erfolgreiche Ausführung von MultiTalk vorbereitet werden müssen:
1. audiodateien
- Formatanforderungen: WAV-Format (16 kHz Abtastrate empfohlen)
- Quantitative Anforderungen: entsprechend der Anzahl der an dem Dialog beteiligten Personen
- Qualitätsanforderungen: klar und rauschfrei, Mono-Aufnahme empfohlen
2. referenzbilder
- Charakterbild: ein klares Bild mit Gesichtszügen
- Stilkompatibilität: unterstützt echte Fotos oder Cartoon-Bilder
- Vorschlag für den Hintergrund: einfarbige Hintergründe sind leichter zu bearbeiten
3. textliche Warnungen
- Szenenbeschreibung: z. B. "Zwei Personen unterhalten sich in einem Café".
- Verhaltensbezeichnungen: z. B. "Frau nickt und lächelt, Mann zeigt Mobiltelefon".
- Stilkontrolle: Weisen Sie Zeichentrickfiguren usw. den "Disney-Stil" zu.
Alle Eingabedateien müssen über eine JSON-Konfigurationsdatei organisiert und verknüpft werden. Ein Beispiel dafür finden Sie in der Vorlage in der Projektdokumentation.
Diese Antwort stammt aus dem ArtikelMultiTalk: ein audiogestütztes Tool zur Erstellung von Videos von Gesprächen mit mehreren PersonenDie































