海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI新闻

AI同传新突破:字节跳动发布Seed LiveInterpret 2.0,延迟直逼人类译员

2025-07-26 49

在跨语言沟通成为全球化核心需求的今天,同声传译一直是机器翻译领域最具挑战性的高峰。近日,字节跳动 Seed 团队发布了一款名为 Seed LiveInterpret 2.0 的端到端同声传译模型,为实时跨语言交流提供了可靠的技术方案。

AI同传新突破:字节跳动发布Seed LiveInterpret 2.0,延迟直逼人类译员-1

更低延迟,更自然的体验

传统的机器同传系统大多采用级联式(Cascaded)方案,即“语音识别 (ASR) → 文本翻译 (MT) → 语音合成 (TTS)”的三步走模式。这种模式虽然成熟,但每一环节都会产生延迟累加,并且错误会在链路中传递放大,导致最终的翻译效果和实时性大打折扣。

Seed LiveInterpret 2.0 采用了端到端(End-to-End)的语音到语音(S2S)建模,将上述三个步骤整合为一个单一模型。这种架构使得模型能够实现全双工的语音理解和生成,从而在翻译的准确性和延迟之间取得了更好的平衡。

根据官方公布的数据,在语音到文本(S2T)场景下,Seed LiveInterpret 2.0 的平均首词延迟仅为 2.21 秒;在更复杂的语音到语音(S2S)场景下,输出延迟也只有 2.53 秒。这种 2-3 秒的平均延迟水平,已经非常接近人类专业同声传译员的表现,极大地提升了对话的流畅感。

零样本声音复刻与精准理解

除了低延迟,该模型还具备零样本(Zero-shot)声音复刻能力。这意味着它可以在没有预先训练的情况下,实时复制说话人的声音特质,保留其独特的音色和身份,有效避免了在多人对话中因声音统一而产生的混淆。

在复杂的翻译场景中,例如处理绕口令、诗歌、饮食文化等内容时,模型展示了其深度理解上下文和文化背景的能力,实现了自然且准确的中英互译。

模型评测数据

在一项人工评估中,Seed LiveInterpret 2.0 的中英双向语音到文本(S2T)同传质量得分达到了 74.8 分(满分100),对比行业内排名第二的基线系统(47.3分),超出了 58%。

在支持语音到语音(S2S)翻译的系统中,该模型的中英双向翻译质量平均分达到了 66.3 分(评估维度包括翻译准确度、延迟、语速、发音和流畅度),远超其他基线系统。值得注意的是,大多数参与对比的系统甚至还不支持声音复刻功能。

AI同传新突破:字节跳动发布Seed LiveInterpret 2.0,延迟直逼人类译员-3

这项技术的出现,不仅仅是翻译工具的又一次迭代,它预示着一种更自然、更沉浸的跨语言沟通方式正在变为现实。无论是国际会议、商务谈判还是海外旅行,当机器同传能够做到“闻其声如见其人”时,语言将不再是连接的障碍。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

邮箱

联系我们

回顶部

zh_CN简体中文