谷歌近日宣佈,已將“Computer Use”功能直接整合進其 Gemini 3.5 Flash 模型。這意味著該模型現在不僅能理解屏幕上的內容,還能自主執行操作——包括操控計算機、瀏覽器和移動設備。此前,類似能力僅作為獨立的 Gemini 2.5 模型提供,此次整合大幅降低了開發者構建自主代理的門檻。

在衡量模型操控操作系統能力的 OSWorld 基準測試中,Gemini 3.5 Flash 取得了 78.4 分的成績。這一表現不僅遠超自家前代 Gemini 3 Flash 的 65.1 分,也壓過了 GPT-5.4 mini 的 72.1 分。與業界頂尖模型相比,它僅以微弱差距落後於 GPT-5.5 的 78.7 分,與 AnthropicSonnet 4.6 持平。目前該基準的最高分由 Anthropic 的 Opus 4.8 保持,為 83.4 分。

從產業角度看,這一整合並非孤立的技術升級。谷歌正將 Computer Use 與其已有的工具生態——包括函數調用、Google SearchGoogle Maps——深度結合。開發者現在可以利用 Gemini APIGemini Enterprise Agent Platform,構建能跨瀏覽器、移動端和桌面環境協同工作的代理,應用於軟件測試、辦公自動化等場景。這實質上是在模型層與應用層之間架設了一座更直接的橋樑,讓 AI 代理從“對話”走向“執行”。

安全始終是自主代理落地的核心挑戰。針對潛在的提示注入攻擊,谷歌採用了對抗性訓練,並提供了兩項可選的企業級防護措施:一是在執行敏感或不可逆操作前要求用戶確認,二是在檢測到間接提示注入時自動中止任務。谷歌還建議開發者採用沙盒環境、保持人類監督並實施嚴格的訪問控制,相關最佳實踐已在其文檔中詳細說明。

此次更新對 AI 產業競爭格局具有多重含義。在模型能力層面,谷歌正在縮小與 OpenAI 和 Anthropic 在自主代理領域的差距,尤其是在多模態執行而非僅僅多模態理解上發力。在開發者生態層面,將 Computer Use 直接嵌入主力模型而非作為獨立服務,有助於降低集成複雜度,吸引更多企業客戶採用 Gemini 平臺來構建自動化工作流。對於關注 AI 基礎設施與應用的投資者而言,這進一步印證了行業從“模型即服務”向“代理即服務”演進的趨勢,也意味著對算力、API 調用量和安全工具鏈的需求將持續攀升。