阿里千問團隊在6月24日正式推出Qwen-AgentWorld,這是業界首個原生語言世界模型,專門為各類AI智能體的研發與訓練而設計。該模型提供35B-A3B與397B-A17B兩種參數規模,並已通過GitHub、ModelScope和Hugging Face等平臺開源模型權重及配套評測基準AgentWorldBench。
與常規大模型不同,Qwen-AgentWorld的核心定位並非替代智能體與真實環境的交互,而是提供一條互補路徑。它允許智能體在執行具體操作前,先在內部模擬環境可能給出的反饋,從而優化決策質量。研究人員強調,真實環境交互始終是確保行為可靠性的黃金標準,但語言世界模型具備更高的可擴展性與可控性,並能內化世界預測能力。
該模型的一大突破在於從預訓練階段就將環境建模作為訓練目標,貫穿持續預訓練、監督微調到強化學習的全流程。以往通用基礎模型通常在訓練完成後才開始學習理解環境與預判操作結果,而Qwen-AgentWorld將這一能力前置,使模型更早建立對交互結果的內部表徵。
在覆蓋範圍上,Qwen-AgentWorld單一模型同時處理7類環境,包括文本類環境如MCP、Search、Terminal、SWE,以及GUI類環境如Web、OS和Android。對於GUI領域,模型通過可渲染代碼而非像素幀來呈現環境觀測,使得純文本世界建模即可覆蓋視覺交互場景。這種跨領域知識遷移能力,讓模型能夠模擬電腦系統操作、網站交互乃至手機系統行為。
阿里同步發佈的AgentWorldBench評測基準,基於多個前沿模型在成熟評測集上的真實環境交互觀測構建,從格式、事實性、一致性、真實性和質量五個維度評估世界建模能力。在該基準測試中,Qwen-AgentWorld-397B-A17B的整體模擬質量均分達到58.71,超越GPT-5.4的58.25以及Claude Opus 4.8、Gemini 3.1 Pro等模型。在Terminal和SWE領域優勢尤為明顯,這得益於其對代碼執行狀態和工具API行為的準確模擬。即便在35B-A3B規模上,三階段訓練流水線也將整體均分提升了8.66分,使其表現超過Claude Sonnet 4.6。
研究團隊還分析了模型在推理過程中湧現的三種模式。一是自我修正,模型會以“Wait!”為觸發信號糾正中間預測錯誤;二是信息洩漏防護,在搜索場景中避免摘要意外透露智能體正在搜索的目標;三是多步因果推理,能夠完成涉及多個步驟的複雜邏輯鏈條預測。
從產業角度看,Qwen-AgentWorld的發佈為智能體開發提供了新的基礎設施思路。將環境模擬內置於模型本身,有望降低智能體在訓練和部署階段對真實交互環境的依賴,提升迭代效率。同時,開源策略可能加速開發者社區在通用智能體領域的探索,推動從單一任務智能體向具備更強泛化能力的通用智能體演進。