阿里Qwen3.7-Plus：能看會做還能造App

阿里通義千問釋出多模態智慧體模型Qwen3.7-Plus，能以11小時開發學英語App並識別地鐵線路圖

來源:智東西 · 2026-06-02 03:46 ET · #模型 #應用

字號

阿里通義千問團隊在6月2日正式公開了多模態智慧體模型Qwen3.7-Plus，官方強調其與以往“看圖說話”式的多模態模型有本質區別：在完成影像識別的基礎之上，模型進一步打通了介面感知、工具呼叫、程式碼生成與任務交付的能力閉環。這意味著AI不再只是對視覺內容做出文字描述，而是能夠像人類一樣直接操作軟體介面、呼叫API、生成前端程式碼並輸出可用的應用成果。

根據智東西第一時間體驗及官方案例的披露，Qwen3.7-Plus展現出一些令人印象深刻的亮點，例如能夠根據一張地鐵線路圖的截圖進行視覺推理和圖片搜尋，又如在區域性場景下，能夠在約11小時內搭建出一款幫助使用者學習英語的互動式應用。但在實測中也暴露了現階段尚不穩定的問題：面對較複雜的網頁或介面，會出現圖片文字亂碼、互動按鈕失效、3D預覽黑屏等現象，最終交付的成果仍需要人工檢查和除錯。

放在更大的技術演進脈絡中看，這一發布並不孤立。早在5月20日，阿里就釋出了Qwen3.7系列中的旗艦模型Qwen3.7-Max。在Artificial Analysis釋出的全球大模型綜合榜單中，Qwen3.7-Max的Intelligence Index得分為57，這個成績與GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等頂尖海外模型處於同一區間，並明顯領先於Kimi K2.6、Mimo-V2.5-Pro等國產同類模型。Qwen3.7-Plus的推出，可以看作是阿里在模型迭代上走出的第二步——從“更強的認知”延展到“更強的執行”。

在“五層蛋糕”的產業框架中，Qwen3.7-Plus處於模型層，但它對介面感知和工具呼叫的強調，直接向上釋放了應用層的想象空間。過去投資界對多模態模型的關注多集中於引數規模和基準測評分數，而此次智慧體模型將能力落腳到“動手完成任務”，實際上是在模型層和應用層之間架設了一道關鍵的橋樑。若後續複雜介面的穩定性和可靠性得到提升，這類模型有望降低Agent類產品的開發門檻，也會反過來拉動對推理算力的需求，從而影響基礎設施與晶片層的資本敘事。與此同時，國內模型與國際巨頭在評測分數上日益接近的事實，也再度提醒市場，國產AI公司在多模態和智慧體方向上的迭代速度不容忽視，這可能會加速雲廠商和算力供應鏈的內部競爭與投資佈局。

阿里Qwen3.7-Plus：能看會做還能造App

延伸閱讀

相關深度報道

相關每日新聞