微软发布 4B 参数 GUI Agent，任务成功率从 39.8% 跃升至 82.9%

微软基于GELab-Zero-4B-preview微调出4B参数的GUI代理模型，用于Edge和Copilot界面操作。

微软在 Hugging Face 平台上正式开源了一款面向图形用户界面（GUI）自动化的轻量级智能体模型——GELab-Zero-4B-preview-Sico-Evolution。该模型参数量仅为 4B，却在一系列 GUI 操作基准测试中展现出惊人的性能飞跃，其任务成功率从基座模型的 39.8% 飙升至 82.9%，绝对提升幅度高达 43.1 个百分点。

这一成果的核心在于微软所构建的通用 GUI 模型进化流水线。该流水线采用迭代机制，能够在每一轮训练后持续提升智能体在真实任务中的成功率，并将能力迁移至任意 GUI 应用程序。本次发布的模型正是基于开源的 GELab-Zero-4B-preview 基座，利用 LoRA 微调技术，在微软自家 Edge 浏览器与 Copilot 的界面操作轨迹数据上进行训练而成。

从性能对比来看，这款 4B 小模型不仅大幅超越了自身基线，更在与闭源顶尖模型的较量中占据上风。它成功击败了 GPT-5.4（79.7%）、Claude-Opus-4.6（81.3%）以及 Claude-Opus-4.7（82.1%）等重量级对手。在开源阵营中，其优势更为悬殊，远超 kimi-k2.6（62.6%）和 UI-Venus-1.5-30B（61.0%）等主流竞争者。

该模型的技术标签显示其属于 视觉-语言 模型，支持图像到文本的转换，并集成了 qwen3-vl 等先进架构。其应用范围覆盖了 GUI 智能体、移动端智能体等关键场景，意味着它能够理解屏幕上的视觉元素，并自主执行点击、输入、导航等操作。这对于自动化办公、软件测试、无障碍辅助等领域具有直接的实用价值。

从产业视角观察，这一发布具有多重含义。首先，它打破了“参数越大、性能越强”的固有认知，证明了通过精巧的训练流水线与高质量任务数据，小模型完全可以在特定垂直领域实现对巨头的反超。其次，4B 的轻量级体量意味着更低的推理成本与更快的响应速度，使其能够直接在移动设备或边缘终端上运行，无需依赖云端庞大算力，这为 AI 应用在消费电子端的渗透提供了新的可能。

此外，微软选择将模型以 Apache-2.0 许可证开源，并托管于 Hugging Face 的 Transformers 库下，这一举措将加速开发者社区在 GUI 自动化方向的探索与落地。随着大模型竞赛逐渐从通用对话能力转向具体任务执行效率，此类聚焦于“手眼协同”的智能体模型，或将成为连接底层算力与上层应用的关键一环。

微软发布 4B 参数 GUI Agent，任务成功率从 39.8% 跃升至 82.9%

延伸阅读

相关深度报道

相关每日新闻