微软在 Hugging Face 平台上正式开源了一款面向图形用户界面(GUI)自动化的轻量级智能体模型——GELab-Zero-4B-preview-Sico-Evolution。该模型参数量仅为 4B,却在一系列 GUI 操作基准测试中展现出惊人的性能飞跃,其任务成功率从基座模型的 39.8% 飙升至 82.9%,绝对提升幅度高达 43.1 个百分点

这一成果的核心在于微软所构建的通用 GUI 模型进化流水线。该流水线采用迭代机制,能够在每一轮训练后持续提升智能体在真实任务中的成功率,并将能力迁移至任意 GUI 应用程序。本次发布的模型正是基于开源的 GELab-Zero-4B-preview 基座,利用 LoRA 微调技术,在微软自家 Edge 浏览器Copilot 的界面操作轨迹数据上进行训练而成。

从性能对比来看,这款 4B 小模型不仅大幅超越了自身基线,更在与闭源顶尖模型的较量中占据上风。它成功击败了 GPT-5.4(79.7%)、Claude-Opus-4.6(81.3%)以及 Claude-Opus-4.7(82.1%)等重量级对手。在开源阵营中,其优势更为悬殊,远超 kimi-k2.6(62.6%)和 UI-Venus-1.5-30B(61.0%)等主流竞争者。

该模型的技术标签显示其属于 视觉-语言 模型,支持图像到文本的转换,并集成了 qwen3-vl 等先进架构。其应用范围覆盖了 GUI 智能体移动端智能体等关键场景,意味着它能够理解屏幕上的视觉元素,并自主执行点击、输入、导航等操作。这对于自动化办公、软件测试、无障碍辅助等领域具有直接的实用价值。

从产业视角观察,这一发布具有多重含义。首先,它打破了“参数越大、性能越强”的固有认知,证明了通过精巧的训练流水线与高质量任务数据,小模型完全可以在特定垂直领域实现对巨头的反超。其次,4B 的轻量级体量意味着更低的推理成本与更快的响应速度,使其能够直接在移动设备边缘终端上运行,无需依赖云端庞大算力,这为 AI 应用在消费电子端的渗透提供了新的可能。

此外,微软选择将模型以 Apache-2.0 许可证开源,并托管于 Hugging Face 的 Transformers 库下,这一举措将加速开发者社区在 GUI 自动化方向的探索与落地。随着大模型竞赛逐渐从通用对话能力转向具体任务执行效率,此类聚焦于“手眼协同”的智能体模型,或将成为连接底层算力与上层应用的关键一环。