MiniMax 在 Hugging Face 平臺正式開源了 MiniMax-M3-MXFP8 量化模型,這是其旗艦多模態模型 M3 的 MXFP8 精度變體。模型卡信息顯示,該模型總參數量約 4280 億,採用混合專家架構,每次推理激活參數約 230 億,原生支持高達 100 萬 token 的超長上下文窗口。

M3 的核心差異化在於“原生多模態”訓練策略。與許多在純文本基座模型上後期嫁接視覺能力的做法不同,M3 從訓練的第一步起就進行文本、圖像與視頻的混合模態學習。MiniMax 團隊認為,這種從零開始的多模態融合能實現更深層的語義對齊,而非表面特徵拼接。

支撐百萬 token 上下文的關鍵技術是 MiniMax 稀疏注意力(MiniMax Sparse Attention,MSA)。根據模型卡披露的數據,相較於傳統的分組查詢注意力,MSA 在大幅降低注意力計算量和顯存佔用的同時保持了模型質量。在 100 萬 token 的極限場景下,M3 的預填充速度達到上一代 M2 的 9 倍,解碼速度提升 15 倍,單 token 計算開銷降至原來的 二十分之一。這對實際部署中的推理延遲和成本控制具有直接意義。

在能力定位上,M3 瞄準的是長程智能體任務。模型卡特別強調了其在編程與協作場景中的前沿表現,在需要多步推理和工具調用的長週期智能體基準測試中達到領先水平。模型支持三種推理模式:通過 `thinking` 參數可在“始終啟用推理”、“自適應判斷”與“完全關閉推理以最小化延遲”之間切換,為不同延遲和精度需求的業務場景提供靈活選擇。

部署方面,MiniMax 推薦使用 SGLangvLLMTransformers 框架進行本地推理,並給出了推薦推理參數:溫度設為 1.0,top_p 設為 0.95。模型採用 minimax-community 許可證發佈,技術報告已上傳至 arXiv。

從產業視角看,M3 的發佈進一步加劇了大模型基礎設施層的競爭。428B 總參數配合 23B 激活參數的稀疏架構,在追求極致能力的同時試圖控制推理成本,這一路線與當前業界探索的混合專家模型趨勢一致。而原生多模態訓練路線的選擇,則反映出頭部模型廠商正試圖從架構層面而非後期縫合來解決多模態理解的一致性難題。對於關注 AI 基礎設施投資的觀察者而言,稀疏注意力帶來的長上下文效率突破,以及量化版本對部署門檻的降低,是這條新聞中值得持續跟蹤的技術變量。