通義千問團隊近日在Hugging Face上正式開源了Qwen-AgentWorld-35B-A3B,一個專為智能體環境模擬而設計的原生語言世界模型。該模型總參數量為350億,採用混合專家架構,每次推理僅激活30億參數,在保持高性能的同時兼顧了推理效率。
與以往在通用大語言模型上後期適配環境模擬能力的做法不同,Qwen-AgentWorld從持續預訓練階段就將環境建模作為核心目標。它通過三階段訓練流程構建:首先通過持續預訓練注入環境知識,隨後利用監督微調激活下一步狀態預測的推理能力,最後藉助強化學習提升模擬的逼真度。這種設計使其成為一個真正的原生世界模型,而非事後拼湊的功能模塊。
該模型的一大亮點是單一模型覆蓋七大智能體交互領域,包括MCP工具調用、搜索、終端命令、軟件工程、安卓設備、網頁瀏覽以及操作系統操作,橫跨文本與圖形用戶界面兩種交互模態。在AgentWorldBench開放評測中,Qwen-AgentWorld-35B-A3B取得了56.39的綜合得分,超越了GPT-5.4的58.25、Claude Opus 4.8的56.59等多個前沿模型,尤其在搜索領域以36.69分顯著領先。其更大規模的397B-A17B版本更是將綜合得分推高至58.71。
從產業視角看,這一模型的核心價值在於為AI智能體提供了可泛化、可擴展且高度可控的虛擬訓練場。它具備零樣本泛化能力,能夠模擬訓練數據之外的新環境,並支持通過可控擾動構建虛構世界,這突破了真實環境訓練在成本、安全性和多樣性上的瓶頸。團隊還發現,在該模型上進行強化學習預熱後,策略可以遷移到多輪工具調用的智能體任務中,覆蓋七個基準測試,其中三個完全屬於領域外任務,展現出作為智能體基礎模型的潛力。
在部署方面,Qwen-AgentWorld-35B-A3B支持262,144個token的超長上下文窗口,這對於多輪環境模擬至關重要。團隊建議至少保留12.8萬token的上下文長度以充分發揮其能力。模型兼容主流推理框架,包括SGLang和vLLM,均可快速啟動OpenAI兼容的API服務,顯著降低了開發者的接入門檻。
此次發佈標誌著語言模型在智能體領域的角色正從單純的對話與生成,向構建虛擬世界、驅動智能體自主演化的方向演進。對於關注AI產業基礎設施與應用層的投資者而言,這種原生世界模型的出現,可能重塑智能體開發的工作流,減少對昂貴真實環境交互的依賴,並加速軟件工程、自動化測試、數字助理等場景的落地進程。