Hibikiの革新的な合成データ生成スキームは、従来の音声翻訳システムにおける並列コーパスへの依存を打ち破るものです。このシステムは、MADLAD機械翻訳システムの文脈アライメント機能を利用し、単語レベルの弱い教師付きマッチングルールを確立します:ターゲット言語の単語は、ソース言語によって予測できる場合にのみ保持されます。この厳密なアライメント戦略は、2つの重要な技術によって達成される:
- 発話のリズム構造を維持するミュート挿入テクニック
- 合成音声の自然さを保証する音声制御TTSシステム
この方式により、仏英翻訳のシナリオにおいて、単一話者のアライメントデータのみでシステムを学習させることができ、必要なデータ量は従来の手法の10%以下に削減される。実用的なテストによると、合成データで学習したモデルはMOS(Mean Opinion Score)指標で4.2のスコアを達成し、これはプロの人間翻訳者のレベルに近い。
この答えは記事から得たものである。Hibiki:リアルタイム音声翻訳モデル、元の音声の特徴を保持したストリーミング翻訳について































