Hibiki创新性地采用合成数据生成方案突破传统语音翻译系统对平行语料的依赖。该系统利用MADLAD机器翻译系统的上下文对齐能力,建立词级的弱监督匹配规则:目标语言词汇仅在其能被源语言预测时才被保留。这种严格的对齐策略通过两种关键技术实现:
- 静音插入技术保持语句韵律结构
- 语音控制TTS系统确保合成语音自然度
该方案使系统在法语-英语翻译场景下仅需单个说话者的对齐数据即可训练,将数据需求降低至传统方法的10%以下。实际测试表明,合成数据训练出的模型在MOS(平均意见分)指标上达到4.2分,接近专业人工翻译水平。
この答えは記事から得たものである。Hibiki:リアルタイム音声翻訳モデル、元の音声の特徴を保持したストリーミング翻訳について