微軟在 Hugging Face 平臺上正式開源了一款面向圖形用戶界面(GUI)自動化的輕量級智能體模型——GELab-Zero-4B-preview-Sico-Evolution。該模型參數量僅為 4B,卻在一系列 GUI 操作基準測試中展現出驚人的性能飛躍,其任務成功率從基座模型的 39.8% 飆升至 82.9%,絕對提升幅度高達 43.1 個百分點

這一成果的核心在於微軟所構建的通用 GUI 模型進化流水線。該流水線採用迭代機制,能夠在每一輪訓練後持續提升智能體在真實任務中的成功率,並將能力遷移至任意 GUI 應用程序。本次發佈的模型正是基於開源的 GELab-Zero-4B-preview 基座,利用 LoRA 微調技術,在微軟自家 Edge 瀏覽器Copilot 的界面操作軌跡數據上進行訓練而成。

從性能對比來看,這款 4B 小模型不僅大幅超越了自身基線,更在與閉源頂尖模型的較量中佔據上風。它成功擊敗了 GPT-5.4(79.7%)、Claude-Opus-4.6(81.3%)以及 Claude-Opus-4.7(82.1%)等重量級對手。在開源陣營中,其優勢更為懸殊,遠超 kimi-k2.6(62.6%)和 UI-Venus-1.5-30B(61.0%)等主流競爭者。

該模型的技術標籤顯示其屬於 視覺-語言 模型,支持圖像到文本的轉換,並集成了 qwen3-vl 等先進架構。其應用範圍覆蓋了 GUI 智能體移動端智能體等關鍵場景,意味著它能夠理解屏幕上的視覺元素,並自主執行點擊、輸入、導航等操作。這對於自動化辦公、軟件測試、無障礙輔助等領域具有直接的實用價值。

從產業視角觀察,這一發布具有多重含義。首先,它打破了“參數越大、性能越強”的固有認知,證明了通過精巧的訓練流水線與高質量任務數據,小模型完全可以在特定垂直領域實現對巨頭的反超。其次,4B 的輕量級體量意味著更低的推理成本與更快的響應速度,使其能夠直接在移動設備邊緣終端上運行,無需依賴雲端龐大算力,這為 AI 應用在消費電子端的滲透提供了新的可能。

此外,微軟選擇將模型以 Apache-2.0 許可證開源,並託管於 Hugging Face 的 Transformers 庫下,這一舉措將加速開發者社區在 GUI 自動化方向的探索與落地。隨著大模型競賽逐漸從通用對話能力轉向具體任務執行效率,此類聚焦於“手眼協同”的智能體模型,或將成為連接底層算力與上層應用的關鍵一環。