跨语言共享表征的架构创新
PengChengStarling采用的多任务学习框架实现了:
- 共享编码器:底层声学特征由所有语言共享。
- 语言特定适配:通过语言ID切换输出层参数。
- 知识迁移机制:高资源语言向低资源语言的知识蒸馏。
在MLS基准测试中,该方案使越南语等低资源语种的识别错误率相对单语言模型降低19.2%,证明了统一建模的有效性。
This answer comes from the articlePengChengStarling: Smaller and Faster Multilingual Speech-to-Text Tool than Whisper-Large v3The