阿里千问团队在6月24日正式推出Qwen-AgentWorld,这是业界首个原生语言世界模型,专门为各类AI智能体的研发与训练而设计。该模型提供35B-A3B397B-A17B两种参数规模,并已通过GitHub、ModelScope和Hugging Face等平台开源模型权重及配套评测基准AgentWorldBench

与常规大模型不同,Qwen-AgentWorld的核心定位并非替代智能体与真实环境的交互,而是提供一条互补路径。它允许智能体在执行具体操作前,先在内部模拟环境可能给出的反馈,从而优化决策质量。研究人员强调,真实环境交互始终是确保行为可靠性的黄金标准,但语言世界模型具备更高的可扩展性与可控性,并能内化世界预测能力。

该模型的一大突破在于从预训练阶段就将环境建模作为训练目标,贯穿持续预训练、监督微调到强化学习的全流程。以往通用基础模型通常在训练完成后才开始学习理解环境与预判操作结果,而Qwen-AgentWorld将这一能力前置,使模型更早建立对交互结果的内部表征。

在覆盖范围上,Qwen-AgentWorld单一模型同时处理7类环境,包括文本类环境如MCP、Search、Terminal、SWE,以及GUI类环境如Web、OS和Android。对于GUI领域,模型通过可渲染代码而非像素帧来呈现环境观测,使得纯文本世界建模即可覆盖视觉交互场景。这种跨领域知识迁移能力,让模型能够模拟电脑系统操作、网站交互乃至手机系统行为。

阿里同步发布的AgentWorldBench评测基准,基于多个前沿模型在成熟评测集上的真实环境交互观测构建,从格式、事实性、一致性、真实性和质量五个维度评估世界建模能力。在该基准测试中,Qwen-AgentWorld-397B-A17B的整体模拟质量均分达到58.71,超越GPT-5.4的58.25以及Claude Opus 4.8Gemini 3.1 Pro等模型。在Terminal和SWE领域优势尤为明显,这得益于其对代码执行状态和工具API行为的准确模拟。即便在35B-A3B规模上,三阶段训练流水线也将整体均分提升了8.66分,使其表现超过Claude Sonnet 4.6

研究团队还分析了模型在推理过程中涌现的三种模式。一是自我修正,模型会以“Wait!”为触发信号纠正中间预测错误;二是信息泄漏防护,在搜索场景中避免摘要意外透露智能体正在搜索的目标;三是多步因果推理,能够完成涉及多个步骤的复杂逻辑链条预测。

从产业角度看,Qwen-AgentWorld的发布为智能体开发提供了新的基础设施思路。将环境模拟内置于模型本身,有望降低智能体在训练和部署阶段对真实交互环境的依赖,提升迭代效率。同时,开源策略可能加速开发者社区在通用智能体领域的探索,推动从单一任务智能体向具备更强泛化能力的通用智能体演进。