望ましい音声クローニング効果を得るためには、以下の要素を考慮する必要があります:
- サンプル期間母国語で最低5分以上(10~15分を推奨)の録音が必要。
- 録音環境静かな場所で、バックグラウンドノイズを避ける。
- コンテンツ要件の日常会話をカバーすべきである。全音素(複数の発音を含むテキストの音読のすすめ)
- 感情表現落ち着いている/興奮している/疑問を抱いているなど、さまざまなトーンが含まれていることが、クローンの信憑性を高めている。
アップロードが完了すると、システムは次のことを実行する。声紋特徴抽出歌で応えるリズミック・モデリング通常2~4時間のトレーニングが必要です。出来上がったAI音声は、ユーザーの声を正確に再現することができる。97%以上の音響特性独特の呼吸リズムや休止の癖も含めて。
この答えは記事から得たものである。HeyGen:多言語デジタル人間説明ビデオの作成を支援するツールについて