《自然》杂志在6月18日同时刊登了两项关于AI医疗系统的研究,分别来自德国学术团队与谷歌,结果均显示,专门构建的AI系统在模拟患者病例中的诊断与治疗决策能力,已经达到甚至部分超越执业医师的水平。这一进展为AI在高度专业化、高风险的垂直领域落地提供了新的证据,但研究本身也揭示了技术老化与模拟局限等不容忽视的隐忧。
德国系统MIRA的全称是“医学推理与行动智能”,由德累斯顿工业大学、海德堡大学等机构联合开发。它并非一个简单的聊天工具,而是在一个封闭的虚拟电子健康档案环境中运行的自主智能体。研究团队为MIRA配备了超过85,000种可选操作,涵盖11类工具,能够独立完成病史采集、实验室检查、微生物检测、影像学判读、鉴别诊断生成,以及开具处方、制定手术计划和安排住院等完整诊疗流程。
测试基于公开的MIMIC-IV数据集中的500多个真实急诊病例。一个独立的AI智能体扮演患者角色,仅提供真实病历中记录的信息。在八个疾病类别中,MIRA的最终诊断与数据集记录的诊断相符率达到88.9%。在311个病例的直接对比中,MIRA的诊断准确率为87.8%,四名资深专科医生为78.1%,住院医师与专科医生混合团队为71.1%。MIRA在阑尾炎和胰腺炎上表现最佳,准确率分别达到98.6%和92.3%,但在肺炎和尿路感染上与人类医生一样面临更大挑战。
安全性评估同样值得关注。不知情评审专家在不知推荐来源的情况下,未发现MIRA产生危险的药物相互作用、肾功能受损患者的剂量错误或高风险止痛药处方。系统在记录患者当前用药方面近乎完美,且在判断是否需要收治入院时,没有遗漏任何一例需要住院的患者。即便模拟患者只说德语或法语,或表现得特别焦虑,MIRA的表现依然稳定。
谷歌的AMIE系统则聚焦于初级医疗中的多轮患者管理。它由两个智能体协同工作:一个对话智能体负责与患者进行快速友好的文本交流,另一个后台智能体进行更审慎的推理,并将病例与临床指南进行交叉比对。研究以英国NICE指南和BMJ最佳实践为基准,让21名初级保健医生与AMIE在100个跨多次就诊的病例中展开对比,由演员通过文本聊天扮演患者。
结果显示,AMIE在治疗决策上与医生持平,在方案准确性和指南依从性上则更胜一筹。首次就诊时,AMIE的整体方案被评定为适当的比例为95%,医生组仅为72%。无论是专科评审专家还是扮演患者的演员,都更频繁地倾向于选择AMIE。在专门构建的药物知识基准测试RxQA中,AMIE在较难问题上的得分也超过了初级保健医生,但双方在简单问题上的最高分均未超过75%,说明药物推理对AI和人类而言都非易事。
然而,两项研究的作者均对结论持谨慎态度。MIRA团队承认,系统对“小部分但非零”的患者推荐了偏离最佳实践的诊疗方案,模拟患者的回答可能比真实急诊患者的语言“更有条理”,且无法完全排除MIMIC-IV数据集已被用于训练底层模型的可能性,若真如此,所测得的性能更接近理论上限而非真实水平。参与对比的医生均来自德国急诊体系,其结果未必能直接推广到其他国家。
AMIE的开发团队将此次研究称为“里程碑”,但强调无论是病例选择还是纯文本对话,都无法反映真实诊所的复杂性。系统展现出“有前景的能力”,但“尚未准备好向现实世界转化”,仍需解决潜伏在隐藏推理步骤中的“潜在推理错误”。
值得注意的是,两套系统均运行在已经过时的基础模型上。这一细节暗示,当前展示的能力可能只是AI医疗潜力的一个早期快照,但也意味着技术迭代速度之快,可能让任何特定版本的模型在完成严格同行评审之前就已显得陈旧。这种“研究发表即落后”的现象,为医疗AI的监管审批与临床部署节奏提出了新的挑战。
外部独立专家在肯定研究方法严谨性的同时,也提醒不要过度解读。牛津大学医学社会学教授凯瑟琳·波普指出,模拟环境与“杂乱、复杂、充满人情味的日常医疗世界”之间仍有相当距离。德累斯顿工业大学的研究小组负责人雅各布·卡瑟则将这类AI智能体比作飞机的自动驾驶仪:“这些系统可以通过接管常规任务来支持和减轻医务人员的负担,但最终责任永远在医生手中。”
从产业视角看,这两项研究为AI应用层在高度管制、高价值场景中的渗透提供了重要参照。医疗诊断历来被视为AI最难攻克的领域之一,不仅因为技术精度要求极高,更涉及患者安全与法律责任。MIRA与AMIE在模拟环境中展现出的自主决策能力,意味着AI正从辅助工具向独立临床推理角色演进,这对相关企业的估值叙事、监管路径设计以及保险公司与医院采购决策都将产生深远影响。但模拟与现实的鸿沟、模型快速老化带来的持续验证成本,以及“小部分错误”在真实场景中可能被放大的风险,也决定了这一进程不会是一蹴而就的。