Medical-RAGは中国の医療データ用に設計されている。自動処理ラインには3つの革新的なモジュールが含まれている:
インテリジェント・ラベリング・システム
- バッチアノテーション用のLLM(Qwen2:7bなど)を呼び出すHTTP/GPUデュアルモードをサポートする。
- 医療問題が属する診療科(6大分類)と問題のタイプ(8大分類)の自動識別
- 構造化されたアノテーション結果を出力し、その後の検索やフィルタリングに利用可能
ドメイン辞書の構築
- 大量の医学テキストを処理するマルチスレッド技術
- 特殊な専門用語を抽出するための、医療に特化した語彙抽出器(pkuseg)の統合
- 圧縮された単語リストファイル(vocab.pkl.gz)を生成し、BM25の検索効率を最適化。
混合ベクトル生成
- (埋め込みモデルによる)密なベクトルと(単語リストに基づく)疎なベクトルの並列生成
- 知識ベースのダイナミックな拡張に適応するために、バッチ埋め込みとインクリメンタル更新をサポートします。
- テキストチャンキングとメタデータの関連付けを自動的に処理し、検索コンテキストの整合性を確保します。
すべてのプロセスは、次のような理由で可能になる。annotation.pyそしてbuild_vocab.py歌で応えるinsert_data_to_collection.py3つのスクリプトがエンド・ツー・エンドの処理を自動化するため、ユーザーは生のQAデータを準備するだけでよい。
この答えは記事から得たものである。Medical-RAG:中国語医学Q&A構築のための検索支援型生成フレームワークについて































