MiniMax 正式发布最新旗舰模型 M3,将产品重心直接放在编程与 Agent 能力上,试图在日益拥挤的大模型赛道中开辟一条差异化路径。
M3 的核心升级并非单纯提升代码生成质量,而是围绕长期规划、多轮协作和自主执行复杂任务展开。官方公布的两个长任务案例颇具说服力:一个是用接近 12 小时自主复现一篇 ICLR 论文,另一个则是耗时约 24 小时、历经 147 轮迭代完成 CUDA Kernel 优化。这类任务要求模型不仅理解目标,还需自行拆解步骤、检查中间结果并在失败后调整策略,这正是当前 Agent 应用最需要的能力。
支撑长任务表现的是两项架构设计。M3 提供最高 100 万 token 的上下文窗口,并采用 MSA 稀疏注意力架构,旨在降低长链路任务中的信息断裂风险。对于真实代码仓库、复杂需求文档或大量历史修改记录等场景,更长的上下文意味着模型能跨文件、跨阶段保持对任务的整体理解。不过需要指出,超过 512K token 的输入能力在发布初期属于限时限量供应,需联系销售开通,开发者暂时无法无门槛使用完整的百万级上下文。
在实际测试中,M3 展现出鲜明的工程执行力风格。一项从零开发“AI 创业模拟器”Web App 的任务中,M3 仅用约 11 分钟即完成编写与检查,生成的游戏可正常运行,状态管理、历史记录回看和数值平衡等难点处理得当。作为对比,Claude Sonnet 4.6 完成同一任务耗时约 19 分钟,并在玩法上主动加入了突发事件等创意扩展。两者差异在于:M3 更像一个严格围绕指令交付的工程师,动作快、完成度高;Sonnet 4.6 则倾向于主动补充产品想法。
多模态能力是 M3 另一个容易被低估的亮点。测试中仅凭两张 MiniMax 官网首页截图,M3 使用 React 与 Tailwind CSS 复刻出视觉相似度极高的页面,不仅准确还原了导航栏、卡片模块和整体布局,还主动识别了交互元素并补充了悬停动效。更值得注意的是,面对截图未覆盖的页面下半部分,模型并未留白,而是根据已识别的设计规律自行推断并生成了风格一致的内容模块,显示出从视觉理解到工程交付的完整链路能力。
价格策略是 M3 冲击市场的关键一环。其 API 定价为输入 0.6 美元/百万 token、输出 2.4 美元/百万 token。与同类旗舰模型相比,Claude Opus 4.8 的输入成本为 5 美元、输出 25 美元,GPT-5.5 为输入 5 美元、输出 30 美元,M3 的调用成本仅约为前者的十分之一。对于每月消耗数千万 token 的开发者或企业来说,在保持接近旗舰模型能力的前提下,这种成本优势足以影响技术选型。当然,DeepSeek V4-Pro 仍以输入 0.435 美元、输出 0.87 美元的价格保持着最低绝对成本,但 M3 在编程、Agent 和多模态等维度上的综合能力使其成为当前市场最具性价比的旗舰级选项之一。
同步推出的 MiniMax Code 产品直接承载了 M3 的底座能力。从定位看,MiniMax 无意再去争夺“最强模型”的称号,而是试图成为 Agent 时代最具性价比的基础设施。随着 Claude Code、Codex 等 Agent 工具逐渐成为开发者主要入口,模型本身正回归底层能力的角色,能否稳定完成长任务、调用工具、理解图像并控制成本,远比单纯的跑分排名更关键。M3 在这条路径上已展现出清晰竞争力,但其能否支撑起一个真正有吸引力的 Agent 生态,仍需观察开发者社区的持续反馈。