中国 AI 公司 MiniMax 近日在 Hugging Face 平台正式开源了其最新一代原生多模态大模型 MiniMax-M3。该模型总参数量达到约 4280 亿,但通过混合专家架构将每次推理激活的参数控制在约 230 亿,在保持强大能力的同时显著降低了计算开销。
M3 最显著的特征是其原生多模态设计。与许多在后期阶段才加入图像或视频理解模块的模型不同,M3 从训练的第一步起就进行文本、图像和视频的混合模态训练。这种从底层开始的融合策略,旨在实现更深层次的跨模态语义对齐,使模型在处理图文混合输入或视频理解任务时表现更为自然和精准。
在长上下文处理这一当前大模型竞争的关键领域,M3 带来了重要突破。模型支持高达 100 万 token 的上下文窗口,并首次搭载了 MiniMax 稀疏注意力机制。根据技术报告,相比传统的分组查询注意力,该机制在大幅降低注意力计算量和显存占用的同时,有效保持了模型质量。与 MiniMax 前代模型 M2 相比,M3 在 100 万 token 场景下的预填充速度提升了 9 倍,解码速度提升了 15 倍,单 token 的计算成本降至原来的 二十分之一。这一效率飞跃使得处理超长文档、长时间视频理解或复杂代码库分析在经济上更具可行性。
在能力方面,MiniMax 强调 M3 在长周期智能体基准测试中达到了前沿水平,尤其在编程与协作任务上表现突出。模型支持通过“thinking”参数配置三种推理模式:始终启用推理、自适应推理以及完全禁用推理以追求最低延迟和最大吞吐量。这种灵活性让开发者可以根据具体场景在响应质量和速度之间进行权衡。
从产业视角看,M3 的发布进一步加剧了国内大模型在超大规模稀疏模型和长上下文能力上的竞争。其 428B 总参数配合 23B 激活参数的设计思路,与当前业界追求高效推理、降低单次调用成本的趋势高度一致。对于关注 AI 基础设施和模型层的投资者而言,M3 所展示的稀疏注意力技术路径和百万 token 场景下的极致推理加速,为评估模型公司的技术护城河和商业化潜力提供了新的观察样本。模型已在 Hugging Face 开放下载,并推荐使用 SGLang、vLLM 和 Transformers 等主流框架进行本地部署,这也有助于推动其生态的快速扩展。