4 月下旬發佈的 DeepSeek V4,並沒有像其前代 V3 那樣引發開發者群體的集體亢奮。相反,社群中“就這”“還行”的反饋佔據了主流。根據 Vals AI 的多維度測試,V4 在金融、法律、編程、多語言等任務上的平均準確率為 63.87%,全球排名第九,在國內也次於月之暗面的 Kimi K2.6,僅居第二。不少開發者在社交平臺上直言“略感失望”,DeepSeek 自身也坦承,V4 在 Agentic Coding 環節仍遜於 Claude Opus 4.6 的思考模式,世界知識儲備亦不及 Gemini 系列。
然而,雷鋒網作者將 V4 植入中文開發工作流進行實際生產測試後,給出了更具溫差的觀點。評測顯示,在針對中國本土開發者的定製場景中,V4 表現得足夠穩健,尤其在理解中文複雜指令與工程落地方面依然可靠。該文認為,V4 雖未能重現 V3 那種打破 OpenAI 天花板的敘事,卻鞏固了 DeepSeek 在中文開源大模型中的實用地位。
近期行業的一個顯著信號是,模型評估標準正從單一跑分轉向多維度、多場景的綜合能力。Vals AI 的測評覆蓋實際應用高頻領域,V4 的第九名恰恰反映了全球大模型競爭正在進入“高原期”——領先者之間的分差逐漸縮小,而追趕者需要在特定場景建立差異化。對 DeepSeek 而言,V3 以極低訓練成本實現接近 GPT-4 的性能,一度掀起了對算力投入產出比的重新討論。如今 V4 面臨的壓力,不僅來自海外閉源模型的快速迭代,也來自國內同行如 Kimi 的強力追趕。這種“夾心層”處境,使得模型層的競爭敘事從“顛覆”轉向“性價比”與“可部署性”。
站在 AI 產業“五層蛋糕”的視角審視,V4 的地位正處在模型層的關鍵轉折處。它的表現不僅關乎大模型公司自身的商業閉環,也直接牽動上游芯片層的推理需求結構:如果國產模型在中文場景中實現更高效率,未來推理端對高端 GPU 的依賴有望緩解,但同時訓練側的算力需求依然高漲。而對下游應用層而言,一個更務實、可私有化部署的 V4,將降低企業接入成本,加速 AI 在垂直行業的滲透。投資者關注點或將從此前對單款模型“震撼度”的追捧,轉向對模型矩陣、工具鏈和落地速度的綜合評估。