LangExtractの医学テキスト処理機能を使用することで、この目標を迅速に達成することができます。手順は以下の通りです:
- プロンプトの単語を用意する:抽出するフィールドを明示的に指定する。
"Extract medication names, dosages, and administration routes from clinical notes."
- 医療テキストの入力:薬剤情報を含む臨床ノートを入力とする。
- 抽出関数を呼び出す:
result = lx.extract(text, prompt=prompt, model="gemini-2.5-pro")
(より高性能なプロモデルの使用を推奨)
実行後の出力には、次のような構造化データが含まれる:{"entity": "Metformin", "dosage": "500 mg", "route": "orally"}
バッチ処理では、JSONLファイルとして保存するか、見やすいようにHTMLの視覚化ファイルを生成します。バッチ処理では、JSONL形式のファイルとして保存するか、見やすいようにHTMLの視覚化ファイルを生成します。
この答えは記事から得たものである。LangExtract: テキストから構造化データを抽出するオープンソースツールについて