小米在AI推理速度上迈出了引人关注的一步。6月9日,小米MiMo团队与推理系统团队TileRT联合宣布,其旗舰模型Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已实现万亿参数(1T)模型的输出速度首次突破1000 tokens/s。这一成果由小米创始人雷军通过社交媒体对外公布,在AI产业圈内迅速引发讨论。
1000 tokens/s的速度意味着什么?团队给出了一个直观的对比案例:在一项复杂的可视化大屏生成任务中,UltraSpeed版本仅需13秒即可完成,而标准版耗时6分15秒,同等效果下最高提速达到28倍。这背后并非依赖专用AI芯片,而是仅使用了一个标准的8卡通用GPU节点。
技术实现上,团队采用了软硬件协同优化的路径。在模型侧,通过FP4量化大幅缩减模型体积、减少访存开销,并针对MiMo-V2.5-Pro的MoE(混合专家)架构特性,仅对MoE Expert进行参数FP4量化,其他模块保留原有精度,使得模型整体能力基本持平原版。同时引入的DFlash高效推测解码方法,采用块级Masked并行预测,让Draft模型在一次前向中同时填出一整块Mask位置,解除了传统自回归的串行约束,在Coding等场景中平均接受长度达到6.30,部分样本最高7.14,意味着大模型每次验证能“一口气”确认更多内容。
在系统侧,TileRT团队为这一全新流程量身定制了编译引擎与计算核。他们摒弃了逐算子启动的传统模式,引入常驻内核引擎让计算流水线在GPU内部持续流转,并在Tile级别对通信、搬运和张量计算进行精细拆解,实现微秒级的软硬件收敛。TileRT是一家聚焦AI推理系统的独立技术团队,此前5月22日曾与智谱合作,将GLM-5.1高速版API输出速度推至400 tokens/s,创下当时公开大模型商用API推理速度纪录。
此次UltraSpeed模式的API已同步上线,定价为MiMo-V2.5-Pro标准版的3倍,提供约10倍的输出速度提升。体验采取申请制,6月9日至6月23日限时开放,通过审核的用户可获得两周限时免费的Chat体验。团队已将MiMo-V2.5-Pro-FP4-DFlash checkpoint开源至HuggingFace,包含FP4量化权重与DFlash模型参数。
从产业视角看,万亿参数模型在通用GPU上突破千tokens/s,有望打开一系列新的应用想象空间。小米在公告中指出,速度的提升可以转化为智能——在相同等待时间内,模型可并行运行数十条推理路径,用速度换取思考深度和推理质量;对Coding Agent而言,极速推理能大幅提升开发者编码效率;在实时决策领域,毫秒级的“思考-响应”循环使万亿模型有可能接入高频量化交易信号生成、瞬时反欺诈风控拦截、智能竞价等对时间极度敏感的场景;在医疗场景中,更快的病灶分析与风险预判也能为医生争取更多处置时间。
与Cerebras晶圆级集成或Groq纯片上SRAM定制芯片等专用硬件路线不同,小米和TileRT选择在通用GPU上实现这一速度,这有望降低实时AI推理的硬件门槛,使更多场景能以可接受的成本获得近实时响应能力。不过,当前高接受率仍主要集中在Coding等结构化任务,通用对话场景的接受率尚不高,团队也坦言推理资源紧张,申请制开放反映出大规模商用仍需时间。1000 tokens/s的技术突破值得关注,但距离普惠应用还有一段路要走。