Medical-RAG ist für chinesische medizinische Daten konzipiert.Automatisierte Verarbeitungslinienenthält drei innovative Module:
Intelligentes Etikettiersystem
- Unterstützung des HTTP/GPU-Dualmodus beim Aufruf von LLM (z. B. Qwen2:7b) für Batch-Annotation
- Automatische Identifizierung der Abteilung (6 Hauptkategorien) und der Art des Problems (8 Hauptkategorien), zu der das medizinische Problem gehört
- Ausgabe strukturierter Annotationsergebnisse für die anschließende Suche und Filterung
Aufbau eines Bereichslexikons
- Multithreading-Technologie zur Verarbeitung großer Mengen medizinischer Texte
- Integration eines medizin-spezifischen Lexers (pkuseg) zur Extraktion von Fachterminologie
- Generierung komprimierter Wortlistendateien (vocab.pkl.gz) zur Optimierung der Effizienz der BM25-Abfrage
Generierung gemischter Vektoren
- Parallele Erzeugung von dichten Vektoren (über Einbettungsmodelle) und spärlichen Vektoren (auf der Grundlage von Wortlisten)
- Unterstützt Batch Embedding und inkrementelle Aktualisierung zur Anpassung an die dynamische Erweiterung der Wissensbasis
- Automatische Verarbeitung von Textchunking und Metadatenassoziationen, um die Integrität des Abfragekontexts zu gewährleisten
Ermöglicht wird der gesamte Prozess durchannotation.pyundbuild_vocab.pyim Gesang antworteninsert_data_to_collection.pyDrei Skripte sind automatisiert, so dass die Benutzer nur die QA-Rohdaten für die End-to-End-Verarbeitung vorbereiten müssen.
Diese Antwort stammt aus dem ArtikelMedical-RAG: Ein Retrieval-Augmented Generation Framework für die Konstruktion chinesischer medizinischer Q&AsDie































