MiniMax釋出M3模型：稀疏架構實現9.4倍加速，程式設計基準超越GPT-5.5

MiniMax M3採用稀疏注意力架構，支援百萬上下文，預填充加速9倍，解碼加速15倍

來源:智東西 · 2026-06-01 00:06 ET · #模型

字號

MiniMax今日正式釋出新一代旗艦大模型MiniMax M3，核心亮點在於全自研的MSA（MiniMax Sparse Attention）稀疏注意力架構。該架構替換了前代M2所依賴的全注意力機制，使得M3可原生支援100萬token的超長上下文視窗，同時大幅降低計算開銷——官方資料顯示，預填充階段加速約9.4倍，解碼階段加速超過15倍。這一效率躍升意味著，面對海量文本或長時間Agent任務時，模型響應延遲與算力消耗將顯著收窄。

在第三方基準測試中，M3的工程化能力得到印證。專注真實軟體工程的SWE-Bench Pro榜單上，M3以微弱優勢領先GPT-5.5與Gemini 3.1 Pro，並與當前領跑的Claude Opus 4.7差距很小。多模態端同樣可圈可點：文件理解評測OmniDocBench中，M3得分超過Gemini 3.1 Pro；而在面向自主Agent的端到端評測Claw-Eval中，M3展現出直接操作電腦桌面的能力，標誌著模型從文本理解向具身互動邁進。值得注意的是，MiniMax還宣稱通過12小時無人干預的自動流程訓練出四個差異化版本，暗示其訓練管線的高度自動化。

MiniMax是國內最早一批聚焦通用大模型的創業團隊，此前以M2為基礎構建了面向開發者的模型即服務（MaaS）平台，但彼時全注意力的計算瓶頸限制了長上下文場景的商用化。此次轉向稀疏注意力，本質是把計算資源集中到與當前任務最相關的token上，而非對所有上下文平均用力。這不僅讓推理成本結構發生質變，也使得在單卡上執行百萬級上下文成為可能，為邊緣部署和私域部署打開了空間。

從AI產業“五層蛋糕”的視角看，M3直接居於模型層，但其價值釋放高度依賴基礎設施層的CUDA核心最佳化——官方披露的核心加速倍數即是一例印證。更寬泛的意義在於，它為應用層按下加速鍵：當代碼助手可以毫秒級理解整個程式碼倉庫，當桌面Agent能連續完成複雜工作流而不因長上下文而降速，模型能力轉化為生產力的節奏會明顯加快。對投資者而言，這是繼更大引數量軍備競賽後，又一條可行的效率提升路徑；若稀疏注意力被更多模型廠商採納，推理晶片、中介軟體以及開發者工具鏈的需求圖譜都將被改寫，擁有高效核心最佳化能力的團隊將獲得更強的差異化。

MiniMax釋出M3模型：稀疏架構實現9.4倍加速，程式設計基準超越GPT-5.5

延伸閱讀

相關深度報道

相關每日新聞