MiniMax 正式發佈最新旗艦模型 M3,將產品重心直接放在編程與 Agent 能力上,試圖在日益擁擠的大模型賽道中開闢一條差異化路徑。

M3 的核心升級並非單純提升代碼生成質量,而是圍繞長期規劃、多輪協作和自主執行復雜任務展開。官方公佈的兩個長任務案例頗具說服力:一個是用接近 12 小時自主復現一篇 ICLR 論文,另一個則是耗時約 24 小時、歷經 147 輪迭代完成 CUDA Kernel 優化。這類任務要求模型不僅理解目標,還需自行拆解步驟、檢查中間結果並在失敗後調整策略,這正是當前 Agent 應用最需要的能力。

支撐長任務表現的是兩項架構設計。M3 提供最高 100 萬 token上下文窗口,並採用 MSA 稀疏注意力架構,旨在降低長鏈路任務中的信息斷裂風險。對於真實代碼倉庫、複雜需求文檔或大量歷史修改記錄等場景,更長的上下文意味著模型能跨文件、跨階段保持對任務的整體理解。不過需要指出,超過 512K token 的輸入能力在發佈初期屬於限時限量供應,需聯繫銷售開通,開發者暫時無法無門檻使用完整的百萬級上下文。

在實際測試中,M3 展現出鮮明的工程執行力風格。一項從零開發“AI 創業模擬器”Web App 的任務中,M3 僅用約 11 分鐘即完成編寫與檢查,生成的遊戲可正常運行,狀態管理、歷史記錄回看和數值平衡等難點處理得當。作為對比,Claude Sonnet 4.6 完成同一任務耗時約 19 分鐘,並在玩法上主動加入了突發事件等創意擴展。兩者差異在於:M3 更像一個嚴格圍繞指令交付的工程師,動作快、完成度高;Sonnet 4.6 則傾向於主動補充產品想法。

多模態能力是 M3 另一個容易被低估的亮點。測試中僅憑兩張 MiniMax 官網首頁截圖,M3 使用 ReactTailwind CSS 復刻出視覺相似度極高的頁面,不僅準確還原了導航欄、卡片模塊和整體佈局,還主動識別了交互元素並補充了懸停動效。更值得注意的是,面對截圖未覆蓋的頁面下半部分,模型並未留白,而是根據已識別的設計規律自行推斷並生成了風格一致的內容模塊,顯示出從視覺理解到工程交付的完整鏈路能力。

價格策略是 M3 衝擊市場的關鍵一環。其 API 定價為輸入 0.6 美元/百萬 token、輸出 2.4 美元/百萬 token。與同類旗艦模型相比,Claude Opus 4.8 的輸入成本為 5 美元、輸出 25 美元,GPT-5.5 為輸入 5 美元、輸出 30 美元,M3 的調用成本僅約為前者的十分之一。對於每月消耗數千萬 token 的開發者或企業來說,在保持接近旗艦模型能力的前提下,這種成本優勢足以影響技術選型。當然,DeepSeek V4-Pro 仍以輸入 0.435 美元、輸出 0.87 美元的價格保持著最低絕對成本,但 M3 在編程、Agent 和多模態等維度上的綜合能力使其成為當前市場最具性價比的旗艦級選項之一。

同步推出的 MiniMax Code 產品直接承載了 M3 的底座能力。從定位看,MiniMax 無意再去爭奪“最強模型”的稱號,而是試圖成為 Agent 時代最具性價比的基礎設施。隨著 Claude Code、Codex 等 Agent 工具逐漸成為開發者主要入口,模型本身正迴歸底層能力的角色,能否穩定完成長任務、調用工具、理解圖像並控制成本,遠比單純的跑分排名更關鍵。M3 在這條路徑上已展現出清晰競爭力,但其能否支撐起一個真正有吸引力的 Agent 生態,仍需觀察開發者社區的持續反饋。