O ajuste fino da adaptação ao domínio exige um programa sistemático:
- Preparação de dados::
Colete pelo menos 50 horas de áudio na área-alvo (por exemplo, médica), o texto deve incluir a ortografia padrão dos termos e o formato recomendado:uttID /path/to/audio.wav|医生诊断:患者患有
- Configuração de parâmetros::
1. emconfig.yaml
configuraradapt_dropout: 0.3
2. ajustestransformer_encoder_layers: 12
Retenção de recursos básicos - técnica de treinamento::
O treinamento em dois estágios é usado:
1. apenas as últimas 3 camadas foram ajustadas nas primeiras 5 rodadas (freeze_layers: 0-9
)
2. as últimas 10 rodadas de treinamento de parâmetro completo (lr: 0.0001
) - Métodos de validação::
fazer uso deespnet2/bin/validate.py
Reconhecimento do termo de teste Valor F1, limite recomendado > 0,85
A solução melhora a precisão do reconhecimento de termos em 62% em cenários de documentos jurídicos.
Essa resposta foi extraída do artigoOpusLM_7B_Anneal: um modelo unificado eficiente para reconhecimento e síntese de falaO