ドメイン適応の微調整には、体系的なプログラムが必要だ:
- データ準備::
対象分野(例:医療)の音声を少なくとも50時間収集し、テキストには標準的な用語の綴りを含め、推奨フォーマットとする:uttID /path/to/audio.wav|医生诊断:患者患有
- パラメータ設定::
1.config.yaml
セットアップadapt_dropout: 0.3
2.調整transformer_encoder_layers: 12
基本能力の保持 - トレーニング技術::
トレーニングは2段階:
1.最初の5ラウンドで微調整したのは、最後の3レイヤーだけだった(freeze_layers: 0-9
)
2.過去10回のフルパラメーター・トレーニング(lr: 0.0001
) - 検証方法::
利用するespnet2/bin/validate.py
テスト用語認識F1値、推奨閾値 > 0.85
このソリューションは、法律文書のシナリオにおいて、用語認識精度を62%向上させた。
この答えは記事から得たものである。OpusLM_7B_Anneal:音声認識と合成のための効率的な統一モデルについて