谷歌将电脑操控能力直接集成至 Gemini 3.5 Flash

Gemini 3.5 Flash新增“计算机使用”功能，可自主操作电脑和移动设备。

谷歌近日宣布，已将“Computer Use”功能直接整合进其 Gemini 3.5 Flash 模型。这意味着该模型现在不仅能理解屏幕上的内容，还能自主执行操作——包括操控计算机、浏览器和移动设备。此前，类似能力仅作为独立的 Gemini 2.5 模型提供，此次整合大幅降低了开发者构建自主代理的门槛。

在衡量模型操控操作系统能力的 OSWorld 基准测试中，Gemini 3.5 Flash 取得了 78.4 分的成绩。这一表现不仅远超自家前代 Gemini 3 Flash 的 65.1 分，也压过了 GPT-5.4 mini 的 72.1 分。与业界顶尖模型相比，它仅以微弱差距落后于 GPT-5.5 的 78.7 分，与 Anthropic 的 Sonnet 4.6 持平。目前该基准的最高分由 Anthropic 的 Opus 4.8 保持，为 83.4 分。

从产业角度看，这一整合并非孤立的技术升级。谷歌正将 Computer Use 与其已有的工具生态——包括函数调用、Google Search 和 Google Maps——深度结合。开发者现在可以利用 Gemini API 和 Gemini Enterprise Agent Platform，构建能跨浏览器、移动端和桌面环境协同工作的代理，应用于软件测试、办公自动化等场景。这实质上是在模型层与应用层之间架设了一座更直接的桥梁，让 AI 代理从“对话”走向“执行”。

安全始终是自主代理落地的核心挑战。针对潜在的提示注入攻击，谷歌采用了对抗性训练，并提供了两项可选的企业级防护措施：一是在执行敏感或不可逆操作前要求用户确认，二是在检测到间接提示注入时自动中止任务。谷歌还建议开发者采用沙盒环境、保持人类监督并实施严格的访问控制，相关最佳实践已在其文档中详细说明。

此次更新对 AI 产业竞争格局具有多重含义。在模型能力层面，谷歌正在缩小与 OpenAI 和 Anthropic 在自主代理领域的差距，尤其是在多模态执行而非仅仅多模态理解上发力。在开发者生态层面，将 Computer Use 直接嵌入主力模型而非作为独立服务，有助于降低集成复杂度，吸引更多企业客户采用 Gemini 平台来构建自动化工作流。对于关注 AI 基础设施与应用的投资者而言，这进一步印证了行业从“模型即服务”向“代理即服务”演进的趋势，也意味着对算力、API 调用量和安全工具链的需求将持续攀升。

谷歌将电脑操控能力直接集成至 Gemini 3.5 Flash

延伸阅读

相关深度报道

相关每日新闻