小米万亿参数模型推理破千tokens/s，仅需8张GPU

小米MiMo团队宣布旗舰模型输出速度首次突破1000 tokens/s，仅需8张GPU。

小米在AI推理速度上迈出了引人关注的一步。6月9日，小米MiMo团队与推理系统团队TileRT联合宣布，其旗舰模型Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已实现万亿参数（1T）模型的输出速度首次突破1000 tokens/s。这一成果由小米创始人雷军通过社交媒体对外公布，在AI产业圈内迅速引发讨论。

1000 tokens/s的速度意味着什么？团队给出了一个直观的对比案例：在一项复杂的可视化大屏生成任务中，UltraSpeed版本仅需13秒即可完成，而标准版耗时6分15秒，同等效果下最高提速达到28倍。这背后并非依赖专用AI芯片，而是仅使用了一个标准的8卡通用GPU节点。

技术实现上，团队采用了软硬件协同优化的路径。在模型侧，通过FP4量化大幅缩减模型体积、减少访存开销，并针对MiMo-V2.5-Pro的MoE（混合专家）架构特性，仅对MoE Expert进行参数FP4量化，其他模块保留原有精度，使得模型整体能力基本持平原版。同时引入的DFlash高效推测解码方法，采用块级Masked并行预测，让Draft模型在一次前向中同时填出一整块Mask位置，解除了传统自回归的串行约束，在Coding等场景中平均接受长度达到6.30，部分样本最高7.14，意味着大模型每次验证能“一口气”确认更多内容。

在系统侧，TileRT团队为这一全新流程量身定制了编译引擎与计算核。他们摒弃了逐算子启动的传统模式，引入常驻内核引擎让计算流水线在GPU内部持续流转，并在Tile级别对通信、搬运和张量计算进行精细拆解，实现微秒级的软硬件收敛。TileRT是一家聚焦AI推理系统的独立技术团队，此前5月22日曾与智谱合作，将GLM-5.1高速版API输出速度推至400 tokens/s，创下当时公开大模型商用API推理速度纪录。

此次UltraSpeed模式的API已同步上线，定价为MiMo-V2.5-Pro标准版的3倍，提供约10倍的输出速度提升。体验采取申请制，6月9日至6月23日限时开放，通过审核的用户可获得两周限时免费的Chat体验。团队已将MiMo-V2.5-Pro-FP4-DFlash checkpoint开源至HuggingFace，包含FP4量化权重与DFlash模型参数。

从产业视角看，万亿参数模型在通用GPU上突破千tokens/s，有望打开一系列新的应用想象空间。小米在公告中指出，速度的提升可以转化为智能——在相同等待时间内，模型可并行运行数十条推理路径，用速度换取思考深度和推理质量；对Coding Agent而言，极速推理能大幅提升开发者编码效率；在实时决策领域，毫秒级的“思考-响应”循环使万亿模型有可能接入高频量化交易信号生成、瞬时反欺诈风控拦截、智能竞价等对时间极度敏感的场景；在医疗场景中，更快的病灶分析与风险预判也能为医生争取更多处置时间。

与Cerebras晶圆级集成或Groq纯片上SRAM定制芯片等专用硬件路线不同，小米和TileRT选择在通用GPU上实现这一速度，这有望降低实时AI推理的硬件门槛，使更多场景能以可接受的成本获得近实时响应能力。不过，当前高接受率仍主要集中在Coding等结构化任务，通用对话场景的接受率尚不高，团队也坦言推理资源紧张，申请制开放反映出大规模商用仍需时间。1000 tokens/s的技术突破值得关注，但距离普惠应用还有一段路要走。

小米万亿参数模型推理破千tokens/s，仅需8张GPU

延伸阅读

相关深度报道

相关每日新闻