大语言模型在医疗领域的应用长期停留在“纸上谈兵”阶段——能回答问题、通过考试,却无法真正融入医院的工作流。海德堡大学医院的研究人员改变了这一局面。他们开发的自主医疗AI智能体系统MIRA,首次在完整的急诊诊疗流程中直接操作电子健康记录,并在一对一比较中超越了人类医生。这项成果于2026年6月17日发表在顶级期刊《自然》上。

MIRA的核心突破在于“动手能力”。它不是一个只能生成文本的聊天工具,而是一个能在电子健康档案(EHR)系统中执行具体操作的智能体。它可以与患者对话获取病史、开具血液化验和影像学检查、解读结果形成诊断假设,并最终制定用药、手术或住院方案。所有操作都遵循FHIR国际医疗互操作性标准,调用的临床工具选项超过85000个,几乎覆盖急诊科医生面临的全部选择。

研究团队设计了一场严谨的“人机对决”。他们从MIMIC-IV数据库中提取了574个真实急诊病例,涵盖阑尾炎、胆囊炎、胰腺炎、肺炎、尿路感染、肺栓塞和胰腺癌等八种常见急症。对照组包括4名委员会认证的专科医生和6名混合资历医生,双方在相同信息条件下独立完成诊疗。

结果呈现出一边倒的态势。MIRA的整体诊断准确率达到87.8%,显著高于专科医生组的78.1%和混合资历组的更低水平。在胰腺炎诊断上,MIRA准确率高达95.2%,远超专科医生的78.6%;阑尾炎诊断准确率更是达到98.6%。仅有胆囊炎和肺栓塞两项,两者表现未拉开显著差距。

更令人关注的是MIRA在诊疗行为上的规范性。它请求体格检查的比例为97.1%,高于人类医生的87.8%。在检查选择上,MIRA并未如外界担心的那样“过度检查”——其血液化验请求覆盖了记录中约51.1%的项目,虽高于人类医生的28.3%,但仍低于真实临床实践中实际执行的数量。影像学和微生物学检查则与医生相当甚至略少。

治疗决策方面,MIRA的指南依从性比专科医生高出35个百分点。在需要手术的病例中,它对阑尾炎手术方式的推荐准确率达到100%,胆囊炎为90.6%。用药安全审查显示,99.8%的用药指令包含正确的给药说明,97.6%的药物剂量正确,未发现严重安全问题。在入院决策上,MIRA对确需住院患者的召回率达到100%,未漏掉任何一例,但对肺栓塞病例存在一定程度的“过度收治”倾向。

MIRA还展现出极强的抗干扰能力。当研究团队改变患者性别、焦虑程度、语言(德语或法语)甚至患者坚称自己没病或得了癌症时,其诊断准确率几乎不受影响。这种稳健性对于真实世界中复杂多变的临床环境至关重要。

从产业视角看,这项研究标志着医疗AI从辅助问答向流程嵌入的关键跨越。过去几年,AI在医学考试中屡获高分,但始终难以突破“最后一公里”——真正进入医院的日常工作流。MIRA证明,一个自主智能体可以在受控访问患者数据、遵循明确安全约束的条件下,完成从问诊到入院的全流程操作。这为AI在严肃医疗场景的商业化落地提供了新的技术路径。

当然,这仍是模拟环境下的研究结果。论文作者也指出,未来最可能的落地场景并非让AI完全替代医生,而是承担核对用药清单、组合化验套餐、草拟会诊申请等重复性高、耗时多的任务,从而将医生的时间释放给更需要人文关怀的医患沟通环节。从模拟到真实世界试验,MIRA还需要经历安全性、泛化能力和治疗机制的进一步验证。但无论如何,它已经为医疗AI的发展史写下了具有里程碑意义的一页。