技术挑战
中国方言存在发音变异性和地域特征,通用语音识别模型常出现误识别。Dolphin特别优化了22种方言处理能力。
Specific steps
- 双标记定位:精准指定方言区域代码
dolphin dialect.wav --lang_sym "zh" --region_sym "TW" # 台湾闽南语
- 模型选择建议::
- 基础场景:使用base模型(响应快)
- 专业场景:选用small模型(错误率降低8.1%)
- data enhancement::
- pass (a bill or inspection etc)
--padding_speech true
填充短语音 - 预处理时加入环境噪音(信噪比控制在20dB左右)
- pass (a bill or inspection etc)
调优方案
开发者可基于开源代码:
1. Indolphin/models/
目录下添加自定义方言数据集
2. 修改configs/regional_config.yaml
增强特定方言特征权重
3. Utilizationpython train.py --dialect_mode=true
fine tune
This answer comes from the articleDolphin: Asian Language Recognition and Speech-to-Text Modeling for Asian LanguagesThe