当数以百万计的 AI 智能体开始在互联网上自主交互、相互下达指令,会发生什么?Google DeepMind 正试图在这一切成为现实之前找到答案。

DeepMind 旗下 AGI 安全与对齐研究负责人 Rohin Shah 近日在接受采访时透露,公司正联合多家机构,共同投入 1000 万美元,资助学术界对多智能体系统的行为展开研究,并探索防止不安全场景出现的方法。参与方包括由 Eric 与 Wendy Schmidt 设立的慈善基金会 Schmidt Sciences、英国政府“登月”机构 ARIA、英国非营利研究组织 Cooperative AI 基金会,以及 Google 的慈善部门 Google.org。

Shah 直言,当前最大的问题是“多智能体安全”这一研究领域几乎还不存在,而他们希望促成它的诞生。这笔资金虽然远不及 DeepMind 自身研究团队的预算,但目标很明确:在科技公司之外点燃学术界的早期探索。Shah 认为,学术界可以看得更远,去做那些尚未进入产业实验室优先清单的工作。

风险并非科幻灾难,而是现有网络威胁的超级升级版

Shah 与 Schmidt Sciences 可信赖 AI 科学项目负责人 James Fox 所担忧的风险,并非遥不可及的经济崩溃或末日场景,而是当下互联网阴暗面的智能体版本。诈骗、恶意指令注入——即通过一段精心构造的文本,将 AI 智能体变成自我引导的恶意软件——以及其他形式的网络攻击,都可能因为智能体的自主性和大规模交互而急剧放大。

Fox 用一个比喻点出问题的本质:人类社会的数字公域是现代运作不可或缺的基础,如果任由智能体在其中无序冲撞,可能滑向“彻底的无政府状态”。当被问及是否考虑过更极端的灾难性情景时,Shah 笑称,至少今年年底前还不会发生那种事,但更远的未来谁也无法断言。

两人都认为,要理解大规模多智能体系统交互的涌现行为,唯一途径是进行逼真的模拟。他们希望研究人员将 AI 智能体放入沙盒环境中,观察它们在大量并发交互中会做出什么。仅靠研究单个智能体,甚至小群体智能体,无法预测复杂系统的整体走向。Fox 强调,不能假设由大语言模型驱动的智能体总会理性行动,真正的复杂性恰恰来自海量交互的同时发生。

从单点能力到群体智能的跨越

这一担忧并非空穴来风。包括 DeepMind 内部团队在内的部分研究者曾提出,通用人工智能的实现或许不依赖于某个超级聪明的单一模型,而可能来自一种智能体“蜂巢思维”——整体能力大于各部分之和。上个月 Google I/O 大会上,基于智能体的工具已被置于核心位置,产业落地正在加速。

DeepMind 并非唯一对自身技术风险发出警告的顶级 AI 公司。几周前,Anthropic 发布了基于“零信任”网络安全理念的智能体部署指南,其出发点就是假设系统天生脆弱、智能体本身可能就是攻击者、漏洞必然会被利用。

特拉维夫网络安全公司 Akeyless 的联合创始人兼 CTO Rafael Angel 对此深表认同。他指出,过去所有安全手段都基于一个前提:被保护的机器运行的是人类编写的软件,在固定路径上执行固定任务。而智能体打破了所有这些假设——它会推理、会即兴发挥,甚至可能被藏在要求它阅读的文档中的一句话所劫持。Angel 欢迎这笔新的研究资助,但也提醒,安全研究者有时会忽视眼前已经存在的“无聊”问题,转而追逐更具异域色彩的假设性风险。

Fox 则回应,几年前还被视为假设的风险,如今已变得非常真实。“未来来得比预想的更快。”他说。

随着 AI 智能体从实验室走向经济活动的各个环节,如何确保它们在自主协作时不失控,正从一个学术问题迅速演变为产业界与投资者必须正视的基础设施级挑战。这笔 1000 万美元的种子基金,或许正是为整个行业铺设安全护栏的第一步。