大語言模型在醫療領域的應用長期停留在“紙上談兵”階段——能回答問題、通過考試,卻無法真正融入醫院的工作流。海德堡大學醫院的研究人員改變了這一局面。他們開發的自主醫療AI智能體系統MIRA,首次在完整的急診診療流程中直接操作電子健康記錄,並在一對一比較中超越了人類醫生。這項成果於2026年6月17日發表在頂級期刊《自然》上。
MIRA的核心突破在於“動手能力”。它不是一個只能生成文本的聊天工具,而是一個能在電子健康檔案(EHR)系統中執行具體操作的智能體。它可以與患者對話獲取病史、開具血液化驗和影像學檢查、解讀結果形成診斷假設,並最終制定用藥、手術或住院方案。所有操作都遵循FHIR國際醫療互操作性標準,調用的臨床工具選項超過85000個,幾乎覆蓋急診科醫生面臨的全部選擇。
研究團隊設計了一場嚴謹的“人機對決”。他們從MIMIC-IV數據庫中提取了574個真實急診病例,涵蓋闌尾炎、膽囊炎、胰腺炎、肺炎、尿路感染、肺栓塞和胰腺癌等八種常見急症。對照組包括4名委員會認證的專科醫生和6名混合資歷醫生,雙方在相同信息條件下獨立完成診療。
結果呈現出一邊倒的態勢。MIRA的整體診斷準確率達到87.8%,顯著高於專科醫生組的78.1%和混合資歷組的更低水平。在胰腺炎診斷上,MIRA準確率高達95.2%,遠超專科醫生的78.6%;闌尾炎診斷準確率更是達到98.6%。僅有膽囊炎和肺栓塞兩項,兩者表現未拉開顯著差距。
更令人關注的是MIRA在診療行為上的規範性。它請求體格檢查的比例為97.1%,高於人類醫生的87.8%。在檢查選擇上,MIRA並未如外界擔心的那樣“過度檢查”——其血液化驗請求覆蓋了記錄中約51.1%的項目,雖高於人類醫生的28.3%,但仍低於真實臨床實踐中實際執行的數量。影像學和微生物學檢查則與醫生相當甚至略少。
治療決策方面,MIRA的指南依從性比專科醫生高出35個百分點。在需要手術的病例中,它對闌尾炎手術方式的推薦準確率達到100%,膽囊炎為90.6%。用藥安全審查顯示,99.8%的用藥指令包含正確的給藥說明,97.6%的藥物劑量正確,未發現嚴重安全問題。在入院決策上,MIRA對確需住院患者的召回率達到100%,未漏掉任何一例,但對肺栓塞病例存在一定程度的“過度收治”傾向。
MIRA還展現出極強的抗干擾能力。當研究團隊改變患者性別、焦慮程度、語言(德語或法語)甚至患者堅稱自己沒病或得了癌症時,其診斷準確率幾乎不受影響。這種穩健性對於真實世界中複雜多變的臨床環境至關重要。
從產業視角看,這項研究標誌著醫療AI從輔助問答向流程嵌入的關鍵跨越。過去幾年,AI在醫學考試中屢獲高分,但始終難以突破“最後一公里”——真正進入醫院的日常工作流。MIRA證明,一個自主智能體可以在受控訪問患者數據、遵循明確安全約束的條件下,完成從問診到入院的全流程操作。這為AI在嚴肅醫療場景的商業化落地提供了新的技術路徑。
當然,這仍是模擬環境下的研究結果。論文作者也指出,未來最可能的落地場景並非讓AI完全替代醫生,而是承擔核對用藥清單、組合化驗套餐、草擬會診申請等重複性高、耗時多的任務,從而將醫生的時間釋放給更需要人文關懷的醫患溝通環節。從模擬到真實世界試驗,MIRA還需要經歷安全性、泛化能力和治療機制的進一步驗證。但無論如何,它已經為醫療AI的發展史寫下了具有里程碑意義的一頁。