音声クローニングの最先端技術
Kyutaiの音声クローニングシステムは、画期的なサンプルレス学習能力を発揮します。そのコア技術は、敵対的生成ネットワークベースの声紋エンコーダであり、わずか10秒間の参照音声から話者の音色、イントネーション、発音の特徴を抽出することができます。これらの特徴は言語モデルから分離されているため、音声の特徴を維持したままテキスト内容を自由に制御することができます。
このシステムは2段階のトレーニング戦略を採用しています。第1段階では、何千時間もの複数話者のデータを使用して汎用ボコーダーを事前にトレーニングし、第2段階では、アダプター技術によってパーソナライズされた音声特徴を微調整します。実験によると、生成された音声はMOS(Mean Opinion Score)テストで4.2点(5点満点)を達成し、85%のテスターはクローン音声と実際の録音音声を区別することができませんでした。
なお、この機能はまだ完全なオープンソースではなく、研究用のプレビューとしてのみ利用可能である。関係者によれば、電子透かし技術は倫理的な理由から合成音声を認識するために開発されているとのことだ。完全なオープンソース版には、さらなるセキュリティ管理メカニズムが含まれる見込みだ。
この答えは記事から得たものである。Kyutai:リアルタイム音声テキスト変換ツールについて































