谷歌近日宣布,已将“Computer Use”功能直接整合进其 Gemini 3.5 Flash 模型。这意味着该模型现在不仅能理解屏幕上的内容,还能自主执行操作——包括操控计算机、浏览器和移动设备。此前,类似能力仅作为独立的 Gemini 2.5 模型提供,此次整合大幅降低了开发者构建自主代理的门槛。
在衡量模型操控操作系统能力的 OSWorld 基准测试中,Gemini 3.5 Flash 取得了 78.4 分的成绩。这一表现不仅远超自家前代 Gemini 3 Flash 的 65.1 分,也压过了 GPT-5.4 mini 的 72.1 分。与业界顶尖模型相比,它仅以微弱差距落后于 GPT-5.5 的 78.7 分,与 Anthropic 的 Sonnet 4.6 持平。目前该基准的最高分由 Anthropic 的 Opus 4.8 保持,为 83.4 分。
从产业角度看,这一整合并非孤立的技术升级。谷歌正将 Computer Use 与其已有的工具生态——包括函数调用、Google Search 和 Google Maps——深度结合。开发者现在可以利用 Gemini API 和 Gemini Enterprise Agent Platform,构建能跨浏览器、移动端和桌面环境协同工作的代理,应用于软件测试、办公自动化等场景。这实质上是在模型层与应用层之间架设了一座更直接的桥梁,让 AI 代理从“对话”走向“执行”。
安全始终是自主代理落地的核心挑战。针对潜在的提示注入攻击,谷歌采用了对抗性训练,并提供了两项可选的企业级防护措施:一是在执行敏感或不可逆操作前要求用户确认,二是在检测到间接提示注入时自动中止任务。谷歌还建议开发者采用沙盒环境、保持人类监督并实施严格的访问控制,相关最佳实践已在其文档中详细说明。
此次更新对 AI 产业竞争格局具有多重含义。在模型能力层面,谷歌正在缩小与 OpenAI 和 Anthropic 在自主代理领域的差距,尤其是在多模态执行而非仅仅多模态理解上发力。在开发者生态层面,将 Computer Use 直接嵌入主力模型而非作为独立服务,有助于降低集成复杂度,吸引更多企业客户采用 Gemini 平台来构建自动化工作流。对于关注 AI 基础设施与应用的投资者而言,这进一步印证了行业从“模型即服务”向“代理即服务”演进的趋势,也意味着对算力、API 调用量和安全工具链的需求将持续攀升。