MiniMax今日正式發佈新一代旗艦大模型MiniMax M3,核心亮點在於全自研的MSA(MiniMax Sparse Attention)稀疏注意力架構。該架構替換了前代M2所依賴的全注意力機制,使得M3可原生支持100萬token的超長上下文窗口,同時大幅降低計算開銷——官方數據顯示,預填充階段加速約9.4倍,解碼階段加速超過15倍。這一效率躍升意味著,面對海量文本或長時間Agent任務時,模型響應延遲與算力消耗將顯著收窄。

在第三方基準測試中,M3的工程化能力得到印證。專注真實軟件工程的SWE-Bench Pro榜單上,M3以微弱優勢領先GPT-5.5與Gemini 3.1 Pro,並與當前領跑的Claude Opus 4.7差距很小。多模態端同樣可圈可點:文檔理解評測OmniDocBench中,M3得分超過Gemini 3.1 Pro;而在面向自主Agent的端到端評測Claw-Eval中,M3展現出直接操作電腦桌面的能力,標誌著模型從文本理解向具身交互邁進。值得注意的是,MiniMax還宣稱通過12小時無人干預的自動流程訓練出四個差異化版本,暗示其訓練管線的高度自動化。

MiniMax是國內最早一批聚焦通用大模型的創業團隊,此前以M2為基礎構建了面向開發者的模型即服務(MaaS)平臺,但彼時全注意力的計算瓶頸限制了長上下文場景的商用化。此次轉向稀疏注意力,本質是把計算資源集中到與當前任務最相關的token上,而非對所有上下文平均用力。這不僅讓推理成本結構發生質變,也使得在單卡上運行百萬級上下文成為可能,為邊緣部署和私域部署打開了空間。

從AI產業“五層蛋糕”的視角看,M3直接居於模型層,但其價值釋放高度依賴基礎設施層的CUDA內核優化——官方披露的內核加速倍數即是一例印證。更寬泛的意義在於,它為應用層按下加速鍵:當代碼助手可以毫秒級理解整個代碼倉庫,當桌面Agent能連續完成複雜工作流而不因長上下文而降速,模型能力轉化為生產力的節奏會明顯加快。對投資者而言,這是繼更大參數量軍備競賽後,又一條可行的效率提升路徑;若稀疏注意力被更多模型廠商採納,推理芯片、中間件以及開發者工具鏈的需求圖譜都將被改寫,擁有高效內核優化能力的團隊將獲得更強的差異化。