相较于通用LLM,该模型在医疗任务中实现了三大突破:
- 知识深度:通过中期训练注入最新临床指南、药品说明书等专业知识,在罕见病识别等任务中准确率提升40%
- 推理可靠性:特殊设计的思维链机制(Chain-of-Thought)使诊断推理过程可解释,测试显示其鉴别诊断符合率可达住院医师水平
- 响应效率:优化后的token处理速度达350token/s(RTX 4090),比原生Qwen2.5-32B快2.3倍,满足临床实时性需求
根据HealthBench测试,其在药物相互作用判断等子任务上的F1值达到0.91,显著优于同参数规模通用模型。
Diese Antwort stammt aus dem ArtikelBaichuan-M2: Ein großes Sprachmodell für Augmented Reasoning im GesundheitswesenDie