Soluções práticas para melhorar a precisão do NER médico
O reconhecimento de entidades no domínio médico geralmente leva a problemas de precisão devido à complexidade da terminologia e à diversidade do texto. As seguintes soluções estão disponíveis na plataforma OpenMed:
- Seleção de um modelo de adaptação de domínioPreferência é dada a modelos com um campo especializado em seu nome, por exemploOpenMed-NER-PharmaDetect-SuperClinical-434MOtimizado para o reconhecimento de medicamentos, com pontuações F1 mais altas do que o modelo genérico no conjunto de teste 36%
- Parâmetros dimensionados para atender às necessidadesA versão paramétrica 434M é recomendada para aplicações de nível clínico, e a versão leve 65M pode ser usada para análises de nível de pesquisa, testando diferentes modelos doentidade['pontuação']Nível de confiança para avaliação de valor
- Otimização do pós-processamentoUsando o pipelineaggregation_strategy (estratégia de agregação)Parâmetros (opcionais "simples"/"primeiro" etc.) para mesclar resultados de reconhecimento fragmentados, especialmente para o reconhecimento de palavras compostas em chinês.
- Ajuste fino da áreaPara cenários especiais, como doenças raras, o modelo OpenMed pode ser usado como base e ajustado pelo Hugging Face Trainer usando seus próprios dados de anotação (são necessárias de 5 a 10 horas de tempo de GPU).
Exemplo típico de otimização: ao lidar com a "mutação de deleção do exon 19 do gene EGFR", o modelo da série OncologyDetect é usado para melhorar a precisão em 28% em comparação com o modelo geral, e o parâmetro batch_size=4 é usado para equilibrar o consumo de memória da GPU.
Essa resposta foi extraída do artigoOpenMed: uma plataforma de código aberto para modelos de IA gratuitos na área da saúdeO