MiniMax 在 Hugging Face 平台正式开源了 MiniMax-M3-MXFP8 量化模型,这是其旗舰多模态模型 M3 的 MXFP8 精度变体。模型卡信息显示,该模型总参数量约 4280 亿,采用混合专家架构,每次推理激活参数约 230 亿,原生支持高达 100 万 token 的超长上下文窗口。

M3 的核心差异化在于“原生多模态”训练策略。与许多在纯文本基座模型上后期嫁接视觉能力的做法不同,M3 从训练的第一步起就进行文本、图像与视频的混合模态学习。MiniMax 团队认为,这种从零开始的多模态融合能实现更深层的语义对齐,而非表面特征拼接。

支撑百万 token 上下文的关键技术是 MiniMax 稀疏注意力(MiniMax Sparse Attention,MSA)。根据模型卡披露的数据,相较于传统的分组查询注意力,MSA 在大幅降低注意力计算量和显存占用的同时保持了模型质量。在 100 万 token 的极限场景下,M3 的预填充速度达到上一代 M2 的 9 倍,解码速度提升 15 倍,单 token 计算开销降至原来的 二十分之一。这对实际部署中的推理延迟和成本控制具有直接意义。

在能力定位上,M3 瞄准的是长程智能体任务。模型卡特别强调了其在编程与协作场景中的前沿表现,在需要多步推理和工具调用的长周期智能体基准测试中达到领先水平。模型支持三种推理模式:通过 `thinking` 参数可在“始终启用推理”、“自适应判断”与“完全关闭推理以最小化延迟”之间切换,为不同延迟和精度需求的业务场景提供灵活选择。

部署方面,MiniMax 推荐使用 SGLangvLLMTransformers 框架进行本地推理,并给出了推荐推理参数:温度设为 1.0,top_p 设为 0.95。模型采用 minimax-community 许可证发布,技术报告已上传至 arXiv。

从产业视角看,M3 的发布进一步加剧了大模型基础设施层的竞争。428B 总参数配合 23B 激活参数的稀疏架构,在追求极致能力的同时试图控制推理成本,这一路线与当前业界探索的混合专家模型趋势一致。而原生多模态训练路线的选择,则反映出头部模型厂商正试图从架构层面而非后期缝合来解决多模态理解的一致性难题。对于关注 AI 基础设施投资的观察者而言,稀疏注意力带来的长上下文效率突破,以及量化版本对部署门槛的降低,是这条新闻中值得持续跟踪的技术变量。