阿里通義千問團隊在6月2日正式公開了多模態智能體模型Qwen3.7-Plus,官方強調其與以往“看圖說話”式的多模態模型有本質區別:在完成圖像識別的基礎之上,模型進一步打通了界面感知、工具調用、代碼生成與任務交付的能力閉環。這意味著AI不再只是對視覺內容做出文字描述,而是能夠像人類一樣直接操作軟件界面、調用API、生成前端代碼並輸出可用的應用成果。
根據智東西第一時間體驗及官方案例的披露,Qwen3.7-Plus展現出一些令人印象深刻的亮點,例如能夠根據一張地鐵線路圖的截圖進行視覺推理和圖片搜索,又如在局部場景下,能夠在約11小時內搭建出一款幫助用戶學習英語的交互式應用。但在實測中也暴露了現階段尚不穩定的問題:面對較複雜的網頁或界面,會出現圖片文字亂碼、交互按鈕失效、3D預覽黑屏等現象,最終交付的成果仍需要人工檢查和調試。
放在更大的技術演進脈絡中看,這一發布並不孤立。早在5月20日,阿里就發佈了Qwen3.7系列中的旗艦模型Qwen3.7-Max。在Artificial Analysis發佈的全球大模型綜合榜單中,Qwen3.7-Max的Intelligence Index得分為57,這個成績與GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等頂尖海外模型處於同一區間,並明顯領先於Kimi K2.6、Mimo-V2.5-Pro等國產同類模型。Qwen3.7-Plus的推出,可以看作是阿里在模型迭代上走出的第二步——從“更強的認知”延展到“更強的執行”。
在“五層蛋糕”的產業框架中,Qwen3.7-Plus處於模型層,但它對界面感知和工具調用的強調,直接向上釋放了應用層的想象空間。過去投資界對多模態模型的關注多集中於參數規模和基準測評分數,而此次智能體模型將能力落腳到“動手完成任務”,實際上是在模型層和應用層之間架設了一道關鍵的橋樑。若後續複雜界面的穩定性和可靠性得到提升,這類模型有望降低Agent類產品的開發門檻,也會反過來拉動對推理算力的需求,從而影響基礎設施與芯片層的資本敘事。與此同時,國內模型與國際巨頭在評測分數上日益接近的事實,也再度提醒市場,國產AI公司在多模態和智能體方向上的迭代速度不容忽視,這可能會加速雲廠商和算力供應鏈的內部競爭與投資佈局。