Nature研究：AI智能體MIRA首次在完整診療中超越人類醫生

海德堡大學醫院研發的AI系統MIRA在Nature發表，證明其能管理患者病例且表現優於人類醫生。

大語言模型在醫療領域的應用長期停留在“紙上談兵”階段——能回答問題、通過考試，卻無法真正融入醫院的工作流。海德堡大學醫院的研究人員改變了這一局面。他們開發的自主醫療AI智能體系統MIRA，首次在完整的急診診療流程中直接操作電子健康記錄，並在一對一比較中超越了人類醫生。這項成果於2026年6月17日發表在頂級期刊《自然》上。

MIRA的核心突破在於“動手能力”。它不是一個只能生成文本的聊天工具，而是一個能在電子健康檔案（EHR）系統中執行具體操作的智能體。它可以與患者對話獲取病史、開具血液化驗和影像學檢查、解讀結果形成診斷假設，並最終制定用藥、手術或住院方案。所有操作都遵循FHIR國際醫療互操作性標準，調用的臨床工具選項超過85000個，幾乎覆蓋急診科醫生面臨的全部選擇。

研究團隊設計了一場嚴謹的“人機對決”。他們從MIMIC-IV數據庫中提取了574個真實急診病例，涵蓋闌尾炎、膽囊炎、胰腺炎、肺炎、尿路感染、肺栓塞和胰腺癌等八種常見急症。對照組包括4名委員會認證的專科醫生和6名混合資歷醫生，雙方在相同信息條件下獨立完成診療。

結果呈現出一邊倒的態勢。MIRA的整體診斷準確率達到87.8%，顯著高於專科醫生組的78.1%和混合資歷組的更低水平。在胰腺炎診斷上，MIRA準確率高達95.2%，遠超專科醫生的78.6%；闌尾炎診斷準確率更是達到98.6%。僅有膽囊炎和肺栓塞兩項，兩者表現未拉開顯著差距。

更令人關注的是MIRA在診療行為上的規範性。它請求體格檢查的比例為97.1%，高於人類醫生的87.8%。在檢查選擇上，MIRA並未如外界擔心的那樣“過度檢查”——其血液化驗請求覆蓋了記錄中約51.1%的項目，雖高於人類醫生的28.3%，但仍低於真實臨床實踐中實際執行的數量。影像學和微生物學檢查則與醫生相當甚至略少。

治療決策方面，MIRA的指南依從性比專科醫生高出35個百分點。在需要手術的病例中，它對闌尾炎手術方式的推薦準確率達到100%，膽囊炎為90.6%。用藥安全審查顯示，99.8%的用藥指令包含正確的給藥說明，97.6%的藥物劑量正確，未發現嚴重安全問題。在入院決策上，MIRA對確需住院患者的召回率達到100%，未漏掉任何一例，但對肺栓塞病例存在一定程度的“過度收治”傾向。

MIRA還展現出極強的抗干擾能力。當研究團隊改變患者性別、焦慮程度、語言（德語或法語）甚至患者堅稱自己沒病或得了癌症時，其診斷準確率幾乎不受影響。這種穩健性對於真實世界中複雜多變的臨床環境至關重要。

從產業視角看，這項研究標誌著醫療AI從輔助問答向流程嵌入的關鍵跨越。過去幾年，AI在醫學考試中屢獲高分，但始終難以突破“最後一公里”——真正進入醫院的日常工作流。MIRA證明，一個自主智能體可以在受控訪問患者數據、遵循明確安全約束的條件下，完成從問診到入院的全流程操作。這為AI在嚴肅醫療場景的商業化落地提供了新的技術路徑。

當然，這仍是模擬環境下的研究結果。論文作者也指出，未來最可能的落地場景並非讓AI完全替代醫生，而是承擔核對用藥清單、組合化驗套餐、草擬會診申請等重複性高、耗時多的任務，從而將醫生的時間釋放給更需要人文關懷的醫患溝通環節。從模擬到真實世界試驗，MIRA還需要經歷安全性、泛化能力和治療機制的進一步驗證。但無論如何，它已經為醫療AI的發展史寫下了具有里程碑意義的一頁。

Nature研究：AI智能體MIRA首次在完整診療中超越人類醫生

延伸閱讀

相關每日新聞