多言語医療テキスト処理プログラム
非英語テキストを扱うための3つの技術的戦略:
- 専門的なモデル選択::
- 中国語の臨床テキストOpenMed-NER-ZH-メドベース範囲
- フランス語文書処理オプションオープンメッド-NER-FR-バイオクリン
- ドイツ語/日本語/スペイン語対応ハギング・フェイス専門モデル・ライブラリー
- 混合加工技術::
- まず、langdetectライブラリを使ってテキストの言語を検出する。
- 対応する言語モデルへの自動ルーティング
- 英語標準用語(UMLSコードなど)に調和した出力
- フィールド・ハビリテーションターゲット言語モデルがないため:
from transformers import AutoTokenizer, AutoModelForTokenClassification tokenizer = AutoTokenizer.from_pretrained("OpenMed/OpenMed-NER-MultiLang-434M") model = AutoModelForTokenClassification.from_pretrained("...") # 用目标语言数据继续训练500步
実際のテストによると、中国語の「インスリン」の認識F1は、英語モデルを直接使用した場合は0.62しかなく、ZH-MedBaseに切り替えた後は0.89まで向上している。「1日に2回インスリンを服用する患者」のような混合テキストの場合は、まず言語分割で処理することを推奨する。patient taking insulin twice a day "のような混合テキストでは、最初に言語セグメンテーションを行うことを推奨する。
この答えは記事から得たものである。OpenMed:ヘルスケアにおける無料のAIモデルのためのオープンソースプラットフォームについて