當數以百萬計的 AI 智能體開始在互聯網上自主交互、相互下達指令,會發生什麼?Google DeepMind 正試圖在這一切成為現實之前找到答案。
DeepMind 旗下 AGI 安全與對齊研究負責人 Rohin Shah 近日在接受採訪時透露,公司正聯合多家機構,共同投入 1000 萬美元,資助學術界對多智能體系統的行為展開研究,並探索防止不安全場景出現的方法。參與方包括由 Eric 與 Wendy Schmidt 設立的慈善基金會 Schmidt Sciences、英國政府“登月”機構 ARIA、英國非營利研究組織 Cooperative AI 基金會,以及 Google 的慈善部門 Google.org。
Shah 直言,當前最大的問題是“多智能體安全”這一研究領域幾乎還不存在,而他們希望促成它的誕生。這筆資金雖然遠不及 DeepMind 自身研究團隊的預算,但目標很明確:在科技公司之外點燃學術界的早期探索。Shah 認為,學術界可以看得更遠,去做那些尚未進入產業實驗室優先清單的工作。
風險並非科幻災難,而是現有網絡威脅的超級升級版
Shah 與 Schmidt Sciences 可信賴 AI 科學項目負責人 James Fox 所擔憂的風險,並非遙不可及的經濟崩潰或末日場景,而是當下互聯網陰暗面的智能體版本。詐騙、惡意指令注入——即通過一段精心構造的文本,將 AI 智能體變成自我引導的惡意軟件——以及其他形式的網絡攻擊,都可能因為智能體的自主性和大規模交互而急劇放大。
Fox 用一個比喻點出問題的本質:人類社會的數字公域是現代運作不可或缺的基礎,如果任由智能體在其中無序衝撞,可能滑向“徹底的無政府狀態”。當被問及是否考慮過更極端的災難性情景時,Shah 笑稱,至少今年年底前還不會發生那種事,但更遠的未來誰也無法斷言。
兩人都認為,要理解大規模多智能體系統交互的湧現行為,唯一途徑是進行逼真的模擬。他們希望研究人員將 AI 智能體放入沙盒環境中,觀察它們在大量併發交互中會做出什麼。僅靠研究單個智能體,甚至小群體智能體,無法預測複雜系統的整體走向。Fox 強調,不能假設由大語言模型驅動的智能體總會理性行動,真正的複雜性恰恰來自海量交互的同時發生。
從單點能力到群體智能的跨越
這一擔憂並非空穴來風。包括 DeepMind 內部團隊在內的部分研究者曾提出,通用人工智能的實現或許不依賴於某個超級聰明的單一模型,而可能來自一種智能體“蜂巢思維”——整體能力大於各部分之和。上個月 Google I/O 大會上,基於智能體的工具已被置於核心位置,產業落地正在加速。
DeepMind 並非唯一對自身技術風險發出警告的頂級 AI 公司。幾周前,Anthropic 發佈了基於“零信任”網絡安全理念的智能體部署指南,其出發點就是假設系統天生脆弱、智能體本身可能就是攻擊者、漏洞必然會被利用。
特拉維夫網絡安全公司 Akeyless 的聯合創始人兼 CTO Rafael Angel 對此深表認同。他指出,過去所有安全手段都基於一個前提:被保護的機器運行的是人類編寫的軟件,在固定路徑上執行固定任務。而智能體打破了所有這些假設——它會推理、會即興發揮,甚至可能被藏在要求它閱讀的文檔中的一句話所劫持。Angel 歡迎這筆新的研究資助,但也提醒,安全研究者有時會忽視眼前已經存在的“無聊”問題,轉而追逐更具異域色彩的假設性風險。
Fox 則回應,幾年前還被視為假設的風險,如今已變得非常真實。“未來來得比預想的更快。”他說。
隨著 AI 智能體從實驗室走向經濟活動的各個環節,如何確保它們在自主協作時不失控,正從一個學術問題迅速演變為產業界與投資者必須正視的基礎設施級挑戰。這筆 1000 萬美元的種子基金,或許正是為整個行業鋪設安全護欄的第一步。