OpenRouter在2026年6月發佈了一份對開發者極具參考價值的梳理,指出當前真正具有決定性意義的開源大模型僅有四個,並強調開源陣營在過去18個月裡與閉源模型的差距穩定保持在3到6個月之間。這一判斷意味著,儘管閉源廠商仍在迭代前沿能力,但開源社區已形成持續追趕的態勢,閉源巨頭並未如市場一度擔憂的那樣建立起不可逾越的護城河。
隨著企業AI用量激增,控制推理成本成為各團隊的核心訴求。將業務從閉源模型遷移至開源模型,能直接省下一筆可觀的支出。閉源模型的前沿能力固然會繼續進化,但只要用戶對智力水平的需求相對固定,使用成本就會持續下行。在這一背景下,開源模型迎來了真正的高光時刻。
OpenRouter選出的四個模型各有殺手鐧。DeepSeek V4 Flash是首個被開發團隊直接嵌入智能體工作流的開源模型,被大量開發者視為Anthropic或OpenAI同級閉源模型的平替。其大杯版本V4 Pro在SWE-bench Verified測試中取得80.6% 的成績,刷新開源模型紀錄,看齊GPT-5.5級別的智能體表現。但真正引爆市場的是Flash版本,它採用MIT協議,擁有2840億總參數和130億激活參數的MoE架構,支持百萬token上下文,SWE-bench Verified得分79.0%,與Pro版差距僅約1.6分。價格是其最大利器:在DeepSeek官方API上,輸入和輸出價格分別為每百萬token 0.14美元和0.28美元,緩存摺扣後輸入可低至0.029美元,輸出成本約為GPT-5.5的150分之一。官方在5月已將這一折扣價固定為永久價格,直接拉低了該智力級別模型的市場定價。
GLM 5.2於6月中旬發佈,初期口碑迅速攀升。它在Artificial Analysis的4.1版本智力指數榜單上以51分位居開源模型第一,距離閉源的Claude Fable 5僅差5分。在真實智能體基準測試中,其表現基本與GPT-5.5 xhigh版本持平。該模型的核心優勢在於任務規劃和超長上下文代碼編寫,均價為每百萬token輸入0.447美元、輸出3.31美元。不過,它輸出時傾向於深入思考,消耗大量token,實際運行成本不低。此外,美國近期出臺的出口管制新規迫使Anthropic大規模禁用Fable 5和Mythos 5的海外訪問權限,這使得采用MIT協議且代碼能力接近閉源頭部的GLM 5.2,成為許多追求業務穩定性的企業的替代選擇。
MiniMax M3是四者中唯一原生支持文本、圖表和視頻理解的多模態模型。在智力指數榜單上,它與DeepSeek V4 Pro並列44分,但在真實智能體測試中表現與Claude Sonnet 4.6持平。其價格誘人,每百萬token輸入0.098美元、輸出1.21美元,但上下文超過51萬token後價格上浮。與GLM類似,M3推理過程冗長,總成本未必低廉。它未採用MIT協議,而是使用自家社區協議,商業使用需署名,大型商業產品還需書面授權。在需要處理屏幕截圖、UI界面、架構圖或視頻的智能體場景中,M3是谷歌Gemini Flash在多模態理解領域的強力競爭對手。
英偉達Nemotron 3 Ultra是美國本土最具競爭力的開源模型,專為企業部署打造。它在智力指數榜單上以48分位居第二,僅次於GLM 5.2。該模型採用5500億總參數和550億激活參數的Mamba-2與Transformer混合MoE架構,使用NVFP4精度,支持百萬上下文和多token預測技術,並採用OpenMDW協議。英偉達不僅開源了模型權重,還一併公開了訓練數據、配方、評估工具和強化學習基礎設施。其戰略意圖清晰:開源模型用得越多,市場對英偉達芯片和軟件生態的需求就越旺盛。Nemotron本質上是一塊吸引企業進入英偉達AI全家桶的招牌。
這四個模型分別代表了開源陣營在極致性價比、頂級代碼與規劃質量、平價多模態能力以及企業級可控部署四個方向上的最新高度。開源與閉源的差距雖然存在,但這層窗戶紙已非常薄。對開發者和企業而言,關鍵在於根據自身業務對成本、質量、模態和部署控制權的實際需求,對號入座進行測試和選型。