OpenRouter發佈2026年開源模型“F4”：開源與閉源差距僅剩3到6個月

OpenRouter梳理截至2026年6月最值得關注的4個開源模型，稱開源與閉源差距穩定在3到6個月。

OpenRouter在2026年6月發佈了一份對開發者極具參考價值的梳理，指出當前真正具有決定性意義的開源大模型僅有四個，並強調開源陣營在過去18個月裡與閉源模型的差距穩定保持在3到6個月之間。這一判斷意味著，儘管閉源廠商仍在迭代前沿能力，但開源社區已形成持續追趕的態勢，閉源巨頭並未如市場一度擔憂的那樣建立起不可逾越的護城河。

隨著企業AI用量激增，控制推理成本成為各團隊的核心訴求。將業務從閉源模型遷移至開源模型，能直接省下一筆可觀的支出。閉源模型的前沿能力固然會繼續進化，但只要用戶對智力水平的需求相對固定，使用成本就會持續下行。在這一背景下，開源模型迎來了真正的高光時刻。

OpenRouter選出的四個模型各有殺手鐧。DeepSeek V4 Flash是首個被開發團隊直接嵌入智能體工作流的開源模型，被大量開發者視為Anthropic或OpenAI同級閉源模型的平替。其大杯版本V4 Pro在SWE-bench Verified測試中取得80.6% 的成績，刷新開源模型紀錄，看齊GPT-5.5級別的智能體表現。但真正引爆市場的是Flash版本，它採用MIT協議，擁有2840億總參數和130億激活參數的MoE架構，支持百萬token上下文，SWE-bench Verified得分79.0%，與Pro版差距僅約1.6分。價格是其最大利器：在DeepSeek官方API上，輸入和輸出價格分別為每百萬token 0.14美元和0.28美元，緩存摺扣後輸入可低至0.029美元，輸出成本約為GPT-5.5的150分之一。官方在5月已將這一折扣價固定為永久價格，直接拉低了該智力級別模型的市場定價。

GLM 5.2於6月中旬發佈，初期口碑迅速攀升。它在Artificial Analysis的4.1版本智力指數榜單上以51分位居開源模型第一，距離閉源的Claude Fable 5僅差5分。在真實智能體基準測試中，其表現基本與GPT-5.5 xhigh版本持平。該模型的核心優勢在於任務規劃和超長上下文代碼編寫，均價為每百萬token輸入0.447美元、輸出3.31美元。不過，它輸出時傾向於深入思考，消耗大量token，實際運行成本不低。此外，美國近期出臺的出口管制新規迫使Anthropic大規模禁用Fable 5和Mythos 5的海外訪問權限，這使得采用MIT協議且代碼能力接近閉源頭部的GLM 5.2，成為許多追求業務穩定性的企業的替代選擇。

MiniMax M3是四者中唯一原生支持文本、圖表和視頻理解的多模態模型。在智力指數榜單上，它與DeepSeek V4 Pro並列44分，但在真實智能體測試中表現與Claude Sonnet 4.6持平。其價格誘人，每百萬token輸入0.098美元、輸出1.21美元，但上下文超過51萬token後價格上浮。與GLM類似，M3推理過程冗長，總成本未必低廉。它未採用MIT協議，而是使用自家社區協議，商業使用需署名，大型商業產品還需書面授權。在需要處理屏幕截圖、UI界面、架構圖或視頻的智能體場景中，M3是谷歌Gemini Flash在多模態理解領域的強力競爭對手。

英偉達Nemotron 3 Ultra是美國本土最具競爭力的開源模型，專為企業部署打造。它在智力指數榜單上以48分位居第二，僅次於GLM 5.2。該模型採用5500億總參數和550億激活參數的Mamba-2與Transformer混合MoE架構，使用NVFP4精度，支持百萬上下文和多token預測技術，並採用OpenMDW協議。英偉達不僅開源了模型權重，還一併公開了訓練數據、配方、評估工具和強化學習基礎設施。其戰略意圖清晰：開源模型用得越多，市場對英偉達芯片和軟件生態的需求就越旺盛。Nemotron本質上是一塊吸引企業進入英偉達AI全家桶的招牌。

這四個模型分別代表了開源陣營在極致性價比、頂級代碼與規劃質量、平價多模態能力以及企業級可控部署四個方向上的最新高度。開源與閉源的差距雖然存在，但這層窗戶紙已非常薄。對開發者和企業而言，關鍵在於根據自身業務對成本、質量、模態和部署控制權的實際需求，對號入座進行測試和選型。

OpenRouter發佈2026年開源模型“F4”：開源與閉源差距僅剩3到6個月

延伸閱讀

相關深度報道

相關每日新聞