通义千问团队近日在Hugging Face上正式开源了Qwen-AgentWorld-35B-A3B,一个专为智能体环境模拟而设计的原生语言世界模型。该模型总参数量为350亿,采用混合专家架构,每次推理仅激活30亿参数,在保持高性能的同时兼顾了推理效率。
与以往在通用大语言模型上后期适配环境模拟能力的做法不同,Qwen-AgentWorld从持续预训练阶段就将环境建模作为核心目标。它通过三阶段训练流程构建:首先通过持续预训练注入环境知识,随后利用监督微调激活下一步状态预测的推理能力,最后借助强化学习提升模拟的逼真度。这种设计使其成为一个真正的原生世界模型,而非事后拼凑的功能模块。
该模型的一大亮点是单一模型覆盖七大智能体交互领域,包括MCP工具调用、搜索、终端命令、软件工程、安卓设备、网页浏览以及操作系统操作,横跨文本与图形用户界面两种交互模态。在AgentWorldBench开放评测中,Qwen-AgentWorld-35B-A3B取得了56.39的综合得分,超越了GPT-5.4的58.25、Claude Opus 4.8的56.59等多个前沿模型,尤其在搜索领域以36.69分显著领先。其更大规模的397B-A17B版本更是将综合得分推高至58.71。
从产业视角看,这一模型的核心价值在于为AI智能体提供了可泛化、可扩展且高度可控的虚拟训练场。它具备零样本泛化能力,能够模拟训练数据之外的新环境,并支持通过可控扰动构建虚构世界,这突破了真实环境训练在成本、安全性和多样性上的瓶颈。团队还发现,在该模型上进行强化学习预热后,策略可以迁移到多轮工具调用的智能体任务中,覆盖七个基准测试,其中三个完全属于领域外任务,展现出作为智能体基础模型的潜力。
在部署方面,Qwen-AgentWorld-35B-A3B支持262,144个token的超长上下文窗口,这对于多轮环境模拟至关重要。团队建议至少保留12.8万token的上下文长度以充分发挥其能力。模型兼容主流推理框架,包括SGLang和vLLM,均可快速启动OpenAI兼容的API服务,显著降低了开发者的接入门槛。
此次发布标志着语言模型在智能体领域的角色正从单纯的对话与生成,向构建虚拟世界、驱动智能体自主演化的方向演进。对于关注AI产业基础设施与应用层的投资者而言,这种原生世界模型的出现,可能重塑智能体开发的工作流,减少对昂贵真实环境交互的依赖,并加速软件工程、自动化测试、数字助理等场景的落地进程。