阿里巴巴旗下的通義千問團隊近日推出了Qwen3.7-Plus,這是一款旨在將多模態AI推向全功能自主智能體的新模型。與此前主要聚焦文本或圖像理解的版本不同,Qwen3.7-Plus將視覺感知、圖形用戶界面操作和代碼生成能力整合進一個閉環系統,使AI能夠觀察屏幕、理解界面元素,並直接編寫和執行代碼來完成指定任務。
在團隊公開的演示中,基於Qwen3.7-Plus構建的智能體被要求獨立開發一款詞彙學習應用。整個過程完全自主,無需人類逐步指導:智能體自行規劃功能模塊、設計界面佈局、編寫前端與後端代碼,並持續調試修正。在長達11小時的運行中,它發起了超過1000次內部調用,最終產出了超過一萬行代碼。這展示了AI從輔助編碼工具向獨立承擔完整項目開發的潛力躍遷。
從技術指標看,Qwen3.7-Plus在通義千問自建的屏幕理解基準測試中取得了領先成績,意味著它在解析網頁、桌面應用或移動端界面方面具備較強能力。然而,綜合性能表現並不均衡。根據官方披露,該模型在部分通用推理和數學任務上並未全面超越前代或競品,反映出當前智能體模型在專精能力與通用智能之間仍存在權衡。
商業模式上,Qwen3.7-Plus採取了閉源路線,未開放模型權重,僅通過阿里雲API提供服務。這與通義千問此前部分開源版本形成對比,可能反映出阿里在商業化落地上的策略調整。定價方面,該模型每百萬token輸入費用遠低於OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet,意在吸引對成本敏感的企業開發者。
這一發布將AI產業的焦點進一步拉向“智能體”敘事。在黃仁勳提出的五層蛋糕框架中,Qwen3.7-Plus直接作用於模型層與應用層:它本身是更復雜的多模態模型,同時其設計目標就是驅動上層自動化應用。如果這類智能體被廣泛部署,可能拉動對底層推理芯片和雲基礎設施的需求,因為長時間自主任務會消耗大量算力。
不過,行業觀察者指出,自主智能體仍面臨可靠性挑戰。11小時生成萬行代碼的演示雖亮眼,但實際企業場景中,代碼質量、安全合規和異常處理是否達標尚待驗證。此外,閉源策略可能限制學術研究和社區生態的擴展,而開源陣營的Meta Llama 4或Mistral等模型也在快速追趕多模態能力。
阿里此舉可視為對全球AI智能體競賽的回應。微軟、谷歌和OpenAI均在開發類似產品,試圖讓AI不僅能聊天,還能操作軟件、預訂服務或管理數據。中國市場的特殊之處在於,阿里雲擁有龐大的企業客戶基礎,若Qwen3.7-Plus能無縫集成到釘釘或電商運營工具中,可能率先在商業場景形成閉環。
總體而言,Qwen3.7-Plus的發佈揭示了AI產業的一個關鍵轉向:競爭正從“模型能回答多準”轉向“模型能獨立幹多少活”。這對投資者意味著,算力消耗的持續增長邏輯得到強化,而應用層公司可能迎來新一輪效率革命。