MultiTalkを正常に実行するには、3種類のコア入力ファイルを準備する必要がある:
1.オーディオファイル
- フォーマット要件:WAVフォーマット(16kHzサンプリングレートを推奨)
- 量的要件:対話に関与する登場人物の数と一致すること
- 品質要件:クリアでノイズのないもの、モノラル録音を推奨
2.参考画像
- キャラクター画像:顔の特徴を含む鮮明な画像
- スタイルの互換性:実際の写真や漫画の写真をサポートしています。
- 背景の提案:無地の背景は作業しやすい
3.テキストアラート
- 情景描写:例えば、"カフェで2人が話している"。
- 例:「女性はうなずいて微笑み、男性は携帯電話を見せる
- スタイル・コントロール:アニメのキャラクターなどに「ディズニー・スタイル」を割り当てる。
すべての入力ファイルは、JSONコンフィギュレーション・ファイルによって整理され、関連付けられる必要がある。
この答えは記事から得たものである。MultiTalk:複数人の会話ビデオを生成する音声駆動ツールについて































