海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

音声翻訳におけるコーパスのボトルネックを解消する合成データ生成技術

2025-09-10

2.0 K

直接リンクモバイルビュー

Hibikiの革新的な合成データ生成スキームは、従来の音声翻訳システムにおける並列コーパスへの依存を打ち破るものです。このシステムは、MADLAD機械翻訳システムの文脈アライメント機能を利用し、単語レベルの弱い教師付きマッチングルールを確立します：ターゲット言語の単語は、ソース言語によって予測できる場合にのみ保持されます。この厳密なアライメント戦略は、2つの重要な技術によって達成される：

発話のリズム構造を維持するミュート挿入テクニック
合成音声の自然さを保証する音声制御TTSシステム

この方式により、仏英翻訳のシナリオにおいて、単一話者のアライメントデータのみでシステムを学習させることができ、必要なデータ量は従来の手法の10%以下に削減される。実用的なテストによると、合成データで学習したモデルはMOS（Mean Opinion Score）指標で4.2のスコアを達成し、これはプロの人間翻訳者のレベルに近い。

この答えは記事から得たものである。Hibiki：リアルタイム音声翻訳モデル、元の音声の特徴を保持したストリーミング翻訳について

無断転載を禁じます：AI生産性ツール " 音声翻訳におけるコーパスのボトルネックを解消する合成データ生成技術

おすすめ