O Medical-RAG foi projetado para dados médicos chineses.Linhas de processamento automatizadasO sistema de gerenciamento de dados da empresa, que contém três módulos inovadores:
Sistema de etiquetagem inteligente
- Suporte a LLM de chamada de modo duplo HTTP/GPU (por exemplo, Qwen2:7b) para anotação em lote
- Identificação automática do departamento (6 classificações principais) e do tipo de problema (8 categorias principais) ao qual o problema médico pertence
- Saída de resultados de anotação estruturados para pesquisa e filtragem subsequentes
Construção de léxico de domínio
- Tecnologia multi-threaded para processar grandes quantidades de textos médicos
- Integração de um lexer específico da área médica (pkuseg) para extrair terminologia especializada
- Geração de arquivos compactados de listas de palavras (vocab.pkl.gz) para otimizar a eficiência da recuperação do BM25
Geração de vetores mistos
- Geração paralela de vetores densos (por meio de modelos de incorporação) e vetores esparsos (com base em listas de palavras)
- Oferece suporte à incorporação em lote e à atualização incremental para se adaptar à expansão dinâmica da base de conhecimento
- Lida automaticamente com a fragmentação de texto e associações de metadados para garantir a integridade do contexto de recuperação
Todo o processo é possível graças aannotation.pyebuild_vocab.pyresponder cantandoinsert_data_to_collection.pyTrês scripts são automatizados para que os usuários só precisem preparar dados brutos de QA para o processamento de ponta a ponta.
Essa resposta foi extraída do artigoMedical-RAG: uma estrutura de geração aumentada por recuperação para a construção de perguntas e respostas médicas chinesasO































