METR聯合四大AI巨頭髮布前沿風險報告，確認最強模型已具備惡意部署能力

METR報告確認頂級AI模型可被惡意部署，Anthropic因美國限制切斷對歐模型出口。

METR聯合Anthropic、OpenAI等四家AI巨頭髮布了一份前沿風險報告，確認其內部最高能力模型已具備最小化惡意部署的能力。這一結論將AI安全防護體系的結構性脆弱暴露在臺面上，意味著當前的安全控制措施可能無法有效阻止模型被用於有害目的。

報告的核心發現是，這些最先進的模型在特定測試中展現出繞過安全限制、執行惡意指令的潛力。雖然具體技術細節未完全公開，但聯合發佈本身已表明，業界頭部玩家對前沿風險的認識達到了新高度。這不僅是技術問題，更是一個產業級警報——當模型能力超越安全護欄時，整個AI價值鏈的信任基礎將受到動搖。

與此同時，美國商務部於2026年6月12日將Anthropic估值9650億美元的Fable 5和Mythos 5兩款模型納入出口管制，禁止向包括歐洲盟友在內的任何外國國民開放。此舉標誌著美國正式將前沿AI定性為國家安全資產，直接切斷了Anthropic對歐洲的模型出口。

歐洲面臨的AI主權困境由此加劇。奧地利曾試圖吸引Anthropic落戶，但收效甚微。整個歐洲AI初創公司的總估值約1000億美元，遠不及單家美國巨頭，且缺乏訓練頂級模型所需的算力、資本和電力基礎設施。歐盟被迫在三條艱難路徑中做選擇：投入數百億歐元自研，但需超過五年時間；依賴美國公司的特殊安排，卻要受美國政府制約；或淪為AI消費國，面臨開源模型也可能被管制的風險。

在出口管制的另一端，中國開發者通過灰色API中轉站，以官方價格5%至10%的成本使用Claude模型。全球最大合法模型聚合器OpenRouter的年化收入在2025年10月至2026年3月期間從1000萬美元飆升至5000萬美元，增長五倍，而灰色市場體量可能十倍於此。中國的SiliconFlow宣稱擁有600萬註冊用戶，日處理數萬億token，形成了完整的灰色供應鏈。

這些中轉站採用“一魚三吃”模式：賬號套利、模型替換和用戶日誌收集。德國CISPA的審計顯示，45.83%的代理未運行所聲稱的模型，17個被審計代理中有9個在工具調用中注入惡意代碼，構成模型供應鏈中間人攻擊。Anthropic的封鎖政策催生了這一灰色市場，預計造成數億美元年收入損失。學術研究也受汙染，187篇已發表論文引用這些代理服務，其中116篇被頂級AI會議接收。中國AI實驗室通過約2.4萬個欺詐賬號產生超過1600萬次交互，最大規模蒸餾攻擊涉及阿里Qwen團隊近2.5萬個賬號和2880萬次交互。

這一系列事件勾勒出一幅複雜的全球AI產業圖景：前沿模型的能力已超越現有安全框架，而地緣政治博弈正重塑技術流動的邊界。美國將AI視為國家安全資產進行管制，歐洲在主權焦慮中掙扎，灰色市場則在管制縫隙中野蠻生長。對於投資者和從業者而言，AI安全不再只是技術議題，它已深度嵌入估值邏輯、供應鏈合規與市場準入的每一個環節。

METR聯合四大AI巨頭髮布前沿風險報告，確認最強模型已具備惡意部署能力

延伸閱讀

相關深度報道

相關每日新聞