《自然》雜誌在6月18日同時刊登了兩項關於AI醫療系統的研究,分別來自德國學術團隊與谷歌,結果均顯示,專門構建的AI系統在模擬患者病例中的診斷與治療決策能力,已經達到甚至部分超越執業醫師的水平。這一進展為AI在高度專業化、高風險的垂直領域落地提供了新的證據,但研究本身也揭示了技術老化與模擬侷限等不容忽視的隱憂。

德國系統MIRA的全稱是“醫學推理與行動智能”,由德累斯頓工業大學、海德堡大學等機構聯合開發。它並非一個簡單的聊天工具,而是在一個封閉的虛擬電子健康檔案環境中運行的自主智能體。研究團隊為MIRA配備了超過85,000種可選操作,涵蓋11類工具,能夠獨立完成病史採集、實驗室檢查、微生物檢測、影像學判讀、鑑別診斷生成,以及開具處方、制定手術計劃和安排住院等完整診療流程。

測試基於公開的MIMIC-IV數據集中的500多個真實急診病例。一個獨立的AI智能體扮演患者角色,僅提供真實病歷中記錄的信息。在八個疾病類別中,MIRA的最終診斷與數據集記錄的診斷相符率達到88.9%。在311個病例的直接對比中,MIRA的診斷準確率為87.8%,四名資深專科醫生為78.1%,住院醫師與專科醫生混合團隊為71.1%。MIRA在闌尾炎和胰腺炎上表現最佳,準確率分別達到98.6%和92.3%,但在肺炎和尿路感染上與人類醫生一樣面臨更大挑戰。

安全性評估同樣值得關注。不知情評審專家在不知推薦來源的情況下,未發現MIRA產生危險的藥物相互作用、腎功能受損患者的劑量錯誤或高風險止痛藥處方。系統在記錄患者當前用藥方面近乎完美,且在判斷是否需要收治入院時,沒有遺漏任何一例需要住院的患者。即便模擬患者只說德語或法語,或表現得特別焦慮,MIRA的表現依然穩定。

谷歌的AMIE系統則聚焦於初級醫療中的多輪患者管理。它由兩個智能體協同工作:一個對話智能體負責與患者進行快速友好的文本交流,另一個後臺智能體進行更審慎的推理,並將病例與臨床指南進行交叉比對。研究以英國NICE指南和BMJ最佳實踐為基準,讓21名初級保健醫生與AMIE在100個跨多次就診的病例中展開對比,由演員通過文本聊天扮演患者。

結果顯示,AMIE在治療決策上與醫生持平,在方案准確性和指南依從性上則更勝一籌。首次就診時,AMIE的整體方案被評定為適當的比例為95%,醫生組僅為72%。無論是專科評審專家還是扮演患者的演員,都更頻繁地傾向於選擇AMIE。在專門構建的藥物知識基準測試RxQA中,AMIE在較難問題上的得分也超過了初級保健醫生,但雙方在簡單問題上的最高分均未超過75%,說明藥物推理對AI和人類而言都非易事。

然而,兩項研究的作者均對結論持謹慎態度。MIRA團隊承認,系統對“小部分但非零”的患者推薦了偏離最佳實踐的診療方案,模擬患者的回答可能比真實急診患者的語言“更有條理”,且無法完全排除MIMIC-IV數據集已被用於訓練底層模型的可能性,若真如此,所測得的性能更接近理論上限而非真實水平。參與對比的醫生均來自德國急診體系,其結果未必能直接推廣到其他國家。

AMIE的開發團隊將此次研究稱為“里程碑”,但強調無論是病例選擇還是純文本對話,都無法反映真實診所的複雜性。系統展現出“有前景的能力”,但“尚未準備好向現實世界轉化”,仍需解決潛伏在隱藏推理步驟中的“潛在推理錯誤”。

值得注意的是,兩套系統均運行在已經過時的基礎模型上。這一細節暗示,當前展示的能力可能只是AI醫療潛力的一個早期快照,但也意味著技術迭代速度之快,可能讓任何特定版本的模型在完成嚴格同行評審之前就已顯得陳舊。這種“研究發表即落後”的現象,為醫療AI的監管審批與臨床部署節奏提出了新的挑戰。

外部獨立專家在肯定研究方法嚴謹性的同時,也提醒不要過度解讀。牛津大學醫學社會學教授凱瑟琳·波普指出,模擬環境與“雜亂、複雜、充滿人情味的日常醫療世界”之間仍有相當距離。德累斯頓工業大學的研究小組負責人雅各布·卡瑟則將這類AI智能體比作飛機的自動駕駛儀:“這些系統可以通過接管常規任務來支持和減輕醫務人員的負擔,但最終責任永遠在醫生手中。”

從產業視角看,這兩項研究為AI應用層在高度管制、高價值場景中的滲透提供了重要參照。醫療診斷歷來被視為AI最難攻克的領域之一,不僅因為技術精度要求極高,更涉及患者安全與法律責任。MIRA與AMIE在模擬環境中展現出的自主決策能力,意味著AI正從輔助工具向獨立臨床推理角色演進,這對相關企業的估值敘事、監管路徑設計以及保險公司與醫院採購決策都將產生深遠影響。但模擬與現實的鴻溝、模型快速老化帶來的持續驗證成本,以及“小部分錯誤”在真實場景中可能被放大的風險,也決定了這一進程不會是一蹴而就的。