Nature研究：AI智能体MIRA首次在完整诊疗中超越人类医生

海德堡大学医院研发的AI系统MIRA在Nature发表，证明其能管理患者病例且表现优于人类医生。

大语言模型在医疗领域的应用长期停留在“纸上谈兵”阶段——能回答问题、通过考试，却无法真正融入医院的工作流。海德堡大学医院的研究人员改变了这一局面。他们开发的自主医疗AI智能体系统MIRA，首次在完整的急诊诊疗流程中直接操作电子健康记录，并在一对一比较中超越了人类医生。这项成果于2026年6月17日发表在顶级期刊《自然》上。

MIRA的核心突破在于“动手能力”。它不是一个只能生成文本的聊天工具，而是一个能在电子健康档案（EHR）系统中执行具体操作的智能体。它可以与患者对话获取病史、开具血液化验和影像学检查、解读结果形成诊断假设，并最终制定用药、手术或住院方案。所有操作都遵循FHIR国际医疗互操作性标准，调用的临床工具选项超过85000个，几乎覆盖急诊科医生面临的全部选择。

研究团队设计了一场严谨的“人机对决”。他们从MIMIC-IV数据库中提取了574个真实急诊病例，涵盖阑尾炎、胆囊炎、胰腺炎、肺炎、尿路感染、肺栓塞和胰腺癌等八种常见急症。对照组包括4名委员会认证的专科医生和6名混合资历医生，双方在相同信息条件下独立完成诊疗。

结果呈现出一边倒的态势。MIRA的整体诊断准确率达到87.8%，显著高于专科医生组的78.1%和混合资历组的更低水平。在胰腺炎诊断上，MIRA准确率高达95.2%，远超专科医生的78.6%；阑尾炎诊断准确率更是达到98.6%。仅有胆囊炎和肺栓塞两项，两者表现未拉开显著差距。

更令人关注的是MIRA在诊疗行为上的规范性。它请求体格检查的比例为97.1%，高于人类医生的87.8%。在检查选择上，MIRA并未如外界担心的那样“过度检查”——其血液化验请求覆盖了记录中约51.1%的项目，虽高于人类医生的28.3%，但仍低于真实临床实践中实际执行的数量。影像学和微生物学检查则与医生相当甚至略少。

治疗决策方面，MIRA的指南依从性比专科医生高出35个百分点。在需要手术的病例中，它对阑尾炎手术方式的推荐准确率达到100%，胆囊炎为90.6%。用药安全审查显示，99.8%的用药指令包含正确的给药说明，97.6%的药物剂量正确，未发现严重安全问题。在入院决策上，MIRA对确需住院患者的召回率达到100%，未漏掉任何一例，但对肺栓塞病例存在一定程度的“过度收治”倾向。

MIRA还展现出极强的抗干扰能力。当研究团队改变患者性别、焦虑程度、语言（德语或法语）甚至患者坚称自己没病或得了癌症时，其诊断准确率几乎不受影响。这种稳健性对于真实世界中复杂多变的临床环境至关重要。

从产业视角看，这项研究标志着医疗AI从辅助问答向流程嵌入的关键跨越。过去几年，AI在医学考试中屡获高分，但始终难以突破“最后一公里”——真正进入医院的日常工作流。MIRA证明，一个自主智能体可以在受控访问患者数据、遵循明确安全约束的条件下，完成从问诊到入院的全流程操作。这为AI在严肃医疗场景的商业化落地提供了新的技术路径。

当然，这仍是模拟环境下的研究结果。论文作者也指出，未来最可能的落地场景并非让AI完全替代医生，而是承担核对用药清单、组合化验套餐、草拟会诊申请等重复性高、耗时多的任务，从而将医生的时间释放给更需要人文关怀的医患沟通环节。从模拟到真实世界试验，MIRA还需要经历安全性、泛化能力和治疗机制的进一步验证。但无论如何，它已经为医疗AI的发展史写下了具有里程碑意义的一页。

Nature研究：AI智能体MIRA首次在完整诊疗中超越人类医生

延伸阅读

相关每日新闻