DeepSeek V4 評測引爭議：排名第九卻難復現 V3 震撼

DeepSeek V4 在 Vals AI 評測中全球第九國內第二，部分開發者失望但場景測試仍有價值

來源:雷鋒網 · 2026-05-31 02:31 ET · #模型

字號

4 月下旬釋出的 DeepSeek V4，並沒有像其前代 V3 那樣引發開發者群體的集體亢奮。相反，社群中“就這”“還行”的反饋佔據了主流。根據 Vals AI 的多維度測試，V4 在金融、法律、程式設計、多語言等任務上的平均準確率為 63.87%，全球排名第九，在國內也次於月之暗面的 Kimi K2.6，僅居第二。不少開發者在社交平台上直言“略感失望”，DeepSeek 自身也坦承，V4 在 Agentic Coding 環節仍遜於 Claude Opus 4.6 的思考模式，世界知識儲備亦不及 Gemini 系列。

然而，雷鋒網作者將 V4 植入中文開發工作流進行實際生產測試後，給出了更具溫差的觀點。評測顯示，在針對中國本土開發者的定製場景中，V4 表現得足夠穩健，尤其在理解中文複雜指令與工程落地方面依然可靠。該文認為，V4 雖未能重現 V3 那種打破 OpenAI 天花板的敘事，卻鞏固了 DeepSeek 在中文開源大模型中的實用地位。

近期行業的一個顯著訊號是，模型評估標準正從單一跑分轉向多維度、多場景的綜合能力。Vals AI 的測評覆蓋實際應用高頻領域，V4 的第九名恰恰反映了全球大模型競爭正在進入“高原期”——領先者之間的分差逐漸縮小，而追趕者需要在特定場景建立差異化。對 DeepSeek 而言，V3 以極低訓練成本實現接近 GPT-4 的效能，一度掀起了對算力投入產出比的重新討論。如今 V4 面臨的壓力，不僅來自海外閉源模型的快速迭代，也來自國內同行如 Kimi 的強力追趕。這種“夾心層”處境，使得模型層的競爭敘事從“顛覆”轉向“價效比”與“可部署性”。

站在 AI 產業“五層蛋糕”的視角審視，V4 的地位正處在模型層的關鍵轉折處。它的表現不僅關乎大模型公司自身的商業閉環，也直接牽動上游晶片層的推理需求結構：如果國產模型在中文場景中實現更高效率，未來推理端對高階 GPU 的依賴有望緩解，但同時訓練側的算力需求依然高漲。而對下游應用層而言，一個更務實、可私有化部署的 V4，將降低企業接入成本，加速 AI 在垂直行業的滲透。投資者關注點或將從此前對單款模型“震撼度”的追捧，轉向對模型矩陣、工具鏈和落地速度的綜合評估。

DeepSeek V4 評測引爭議：排名第九卻難復現 V3 震撼

延伸閱讀

相關深度報道

相關每日新聞