中國 AI 公司 MiniMax 近日在 Hugging Face 平臺正式開源了其最新一代原生多模態大模型 MiniMax-M3。該模型總參數量達到約 4280 億,但通過混合專家架構將每次推理激活的參數控制在約 230 億,在保持強大能力的同時顯著降低了計算開銷。
M3 最顯著的特徵是其原生多模態設計。與許多在後期階段才加入圖像或視頻理解模塊的模型不同,M3 從訓練的第一步起就進行文本、圖像和視頻的混合模態訓練。這種從底層開始的融合策略,旨在實現更深層次的跨模態語義對齊,使模型在處理圖文混合輸入或視頻理解任務時表現更為自然和精準。
在長上下文處理這一當前大模型競爭的關鍵領域,M3 帶來了重要突破。模型支持高達 100 萬 token 的上下文窗口,並首次搭載了 MiniMax 稀疏注意力機制。根據技術報告,相比傳統的分組查詢注意力,該機制在大幅降低注意力計算量和顯存佔用的同時,有效保持了模型質量。與 MiniMax 前代模型 M2 相比,M3 在 100 萬 token 場景下的預填充速度提升了 9 倍,解碼速度提升了 15 倍,單 token 的計算成本降至原來的 二十分之一。這一效率飛躍使得處理超長文檔、長時間視頻理解或複雜代碼庫分析在經濟上更具可行性。
在能力方面,MiniMax 強調 M3 在長週期智能體基準測試中達到了前沿水平,尤其在編程與協作任務上表現突出。模型支持通過“thinking”參數配置三種推理模式:始終啟用推理、自適應推理以及完全禁用推理以追求最低延遲和最大吞吐量。這種靈活性讓開發者可以根據具體場景在響應質量和速度之間進行權衡。
從產業視角看,M3 的發佈進一步加劇了國內大模型在超大規模稀疏模型和長上下文能力上的競爭。其 428B 總參數配合 23B 激活參數的設計思路,與當前業界追求高效推理、降低單次調用成本的趨勢高度一致。對於關注 AI 基礎設施和模型層的投資者而言,M3 所展示的稀疏注意力技術路徑和百萬 token 場景下的極致推理加速,為評估模型公司的技術護城河和商業化潛力提供了新的觀察樣本。模型已在 Hugging Face 開放下載,並推薦使用 SGLang、vLLM 和 Transformers 等主流框架進行本地部署,這也有助於推動其生態的快速擴展。