言語横断的なコミュニケーションがグローバル化の中心的な需要となる中、同時通訳は機械翻訳の分野で常に最も困難なピークとなっている。最近、バイトジャンプのシードチームは、同時通訳のためのプログラムをリリースした。 Seed LiveInterpret 2.0
エンド・ツー・エンドの同時通訳モデルは、リアルタイムのクロスリンガル・コミュニケーションに信頼できる技術的ソリューションを提供します。
より低いレイテンシー、より自然なエクスペリエンス
従来の機械同時通訳システムの多くはカスケード方式、つまり「音声認識(ASR)→テキスト翻訳(MT)→音声合成(TTS)」の3段階モデルを採用している。このモデルは成熟していますが、各リンクで遅延が蓄積され、エラーが増幅されるため、最終的な翻訳効果とリアルタイム性が大幅に低下します。
Seed LiveInterpret 2.0
エンドツーエンド(E2E)音声合成(S2S)モデリングは、上記の3つのステップを1つのモデルに統合するために使用された。このアーキテクチャにより、全二重の音声理解と音声生成が可能となり、翻訳精度と遅延のバランスが改善されました。
公式発表されたデータによると、S2T(Speech-to-Text)シナリオでは、以下のようになる。Seed LiveInterpret 2.0
最初の単語の平均遅延はわずか2.21秒で、より複雑な音声合成(S2S)シナリオでは、出力の遅延はわずか2.53秒です。この2~3秒という平均遅延時間は、プロの人間の同時通訳者のパフォーマンスに非常に近く、対話のスムーズさを大幅に向上させます。
ゼロ・サンプル・サウンドの再生と正確な理解
低遅延に加え、このモデルはゼロショット音声複製機能も備えています。これは、事前のトレーニングなしに、話者の声質をリアルタイムで再現できることを意味し、話者固有の音色とアイデンティティを保持することで、複数人での会話における声の均一性による混乱を効果的に回避します。
舌打ち、詩、食文化などの複雑な翻訳シナリオにおいて、このモデルは文脈と文化的背景を深く理解する能力を発揮し、英語と中国語の間で自然で正確な翻訳を実現した。
モデル評価データ
マニュアル査定ではSeed LiveInterpret 2.0
100点満点中74.8点という中英双方向同時通訳品質スコアは、業界2位のベースラインシステム(47.3点)を58%上回った。
音声対音声(S2S)翻訳をサポートするシステムの中で、このモデルは平均66.3という中英双方向翻訳品質スコア(評価次元には翻訳精度、待ち時間、発話速度、発音、流暢さが含まれる)を達成し、これは他のベースラインシステムをはるかに凌駕している。この比較に参加したシステムのほとんどが、まだ音声再生機能をサポートしていないことは注目に値する。
この技術の登場は、単なる翻訳ツールの反復ではなく、言語を超えた、より自然で没入感のあるコミュニケーション方法が現実のものとなりつつあることを示している。国際会議であれ、ビジネス交渉であれ、海外旅行であれ、機械通訳が「まるで人間のように音声を聞き取る」ことができるようになれば、言語はもはやコミュニケーションの障壁ではなくなるだろう。