谷歌將電腦操控能力直接集成至 Gemini 3.5 Flash

Gemini 3.5 Flash新增“計算機使用”功能，可自主操作電腦和移動設備。

谷歌近日宣佈，已將“Computer Use”功能直接整合進其 Gemini 3.5 Flash 模型。這意味著該模型現在不僅能理解屏幕上的內容，還能自主執行操作——包括操控計算機、瀏覽器和移動設備。此前，類似能力僅作為獨立的 Gemini 2.5 模型提供，此次整合大幅降低了開發者構建自主代理的門檻。

在衡量模型操控操作系統能力的 OSWorld 基準測試中，Gemini 3.5 Flash 取得了 78.4 分的成績。這一表現不僅遠超自家前代 Gemini 3 Flash 的 65.1 分，也壓過了 GPT-5.4 mini 的 72.1 分。與業界頂尖模型相比，它僅以微弱差距落後於 GPT-5.5 的 78.7 分，與 Anthropic 的 Sonnet 4.6 持平。目前該基準的最高分由 Anthropic 的 Opus 4.8 保持，為 83.4 分。

從產業角度看，這一整合並非孤立的技術升級。谷歌正將 Computer Use 與其已有的工具生態——包括函數調用、Google Search 和 Google Maps——深度結合。開發者現在可以利用 Gemini API 和 Gemini Enterprise Agent Platform，構建能跨瀏覽器、移動端和桌面環境協同工作的代理，應用於軟件測試、辦公自動化等場景。這實質上是在模型層與應用層之間架設了一座更直接的橋樑，讓 AI 代理從“對話”走向“執行”。

安全始終是自主代理落地的核心挑戰。針對潛在的提示注入攻擊，谷歌採用了對抗性訓練，並提供了兩項可選的企業級防護措施：一是在執行敏感或不可逆操作前要求用戶確認，二是在檢測到間接提示注入時自動中止任務。谷歌還建議開發者採用沙盒環境、保持人類監督並實施嚴格的訪問控制，相關最佳實踐已在其文檔中詳細說明。

此次更新對 AI 產業競爭格局具有多重含義。在模型能力層面，谷歌正在縮小與 OpenAI 和 Anthropic 在自主代理領域的差距，尤其是在多模態執行而非僅僅多模態理解上發力。在開發者生態層面，將 Computer Use 直接嵌入主力模型而非作為獨立服務，有助於降低集成複雜度，吸引更多企業客戶採用 Gemini 平臺來構建自動化工作流。對於關注 AI 基礎設施與應用的投資者而言，這進一步印證了行業從“模型即服務”向“代理即服務”演進的趨勢，也意味著對算力、API 調用量和安全工具鏈的需求將持續攀升。

谷歌將電腦操控能力直接集成至 Gemini 3.5 Flash

延伸閱讀

相關深度報道

相關每日新聞