微軟發佈 4B 參數 GUI Agent，任務成功率從 39.8% 躍升至 82.9%

微軟基於GELab-Zero-4B-preview微調出4B參數的GUI代理模型，用於Edge和Copilot界面操作。

微軟在 Hugging Face 平臺上正式開源了一款面向圖形用戶界面（GUI）自動化的輕量級智能體模型——GELab-Zero-4B-preview-Sico-Evolution。該模型參數量僅為 4B，卻在一系列 GUI 操作基準測試中展現出驚人的性能飛躍，其任務成功率從基座模型的 39.8% 飆升至 82.9%，絕對提升幅度高達 43.1 個百分點。

這一成果的核心在於微軟所構建的通用 GUI 模型進化流水線。該流水線採用迭代機制，能夠在每一輪訓練後持續提升智能體在真實任務中的成功率，並將能力遷移至任意 GUI 應用程序。本次發佈的模型正是基於開源的 GELab-Zero-4B-preview 基座，利用 LoRA 微調技術，在微軟自家 Edge 瀏覽器與 Copilot 的界面操作軌跡數據上進行訓練而成。

從性能對比來看，這款 4B 小模型不僅大幅超越了自身基線，更在與閉源頂尖模型的較量中佔據上風。它成功擊敗了 GPT-5.4（79.7%）、Claude-Opus-4.6（81.3%）以及 Claude-Opus-4.7（82.1%）等重量級對手。在開源陣營中，其優勢更為懸殊，遠超 kimi-k2.6（62.6%）和 UI-Venus-1.5-30B（61.0%）等主流競爭者。

該模型的技術標籤顯示其屬於 視覺-語言 模型，支持圖像到文本的轉換，並集成了 qwen3-vl 等先進架構。其應用範圍覆蓋了 GUI 智能體、移動端智能體等關鍵場景，意味著它能夠理解屏幕上的視覺元素，並自主執行點擊、輸入、導航等操作。這對於自動化辦公、軟件測試、無障礙輔助等領域具有直接的實用價值。

從產業視角觀察，這一發布具有多重含義。首先，它打破了“參數越大、性能越強”的固有認知，證明了通過精巧的訓練流水線與高質量任務數據，小模型完全可以在特定垂直領域實現對巨頭的反超。其次，4B 的輕量級體量意味著更低的推理成本與更快的響應速度，使其能夠直接在移動設備或邊緣終端上運行，無需依賴雲端龐大算力，這為 AI 應用在消費電子端的滲透提供了新的可能。

此外，微軟選擇將模型以 Apache-2.0 許可證開源，並託管於 Hugging Face 的 Transformers 庫下，這一舉措將加速開發者社區在 GUI 自動化方向的探索與落地。隨著大模型競賽逐漸從通用對話能力轉向具體任務執行效率，此類聚焦於“手眼協同”的智能體模型，或將成為連接底層算力與上層應用的關鍵一環。

微軟發佈 4B 參數 GUI Agent，任務成功率從 39.8% 躍升至 82.9%

延伸閱讀

相關深度報道

相關每日新聞