小米在AI推理速度上邁出了引人關注的一步。6月9日,小米MiMo團隊與推理系統團隊TileRT聯合宣佈,其旗艦模型Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已實現萬億參數(1T)模型的輸出速度首次突破1000 tokens/s。這一成果由小米創始人雷軍通過社交媒體對外公佈,在AI產業圈內迅速引發討論。

1000 tokens/s的速度意味著什麼?團隊給出了一個直觀的對比案例:在一項複雜的可視化大屏生成任務中,UltraSpeed版本僅需13秒即可完成,而標準版耗時6分15秒,同等效果下最高提速達到28倍。這背後並非依賴專用AI芯片,而是僅使用了一個標準的8卡通用GPU節點

技術實現上,團隊採用了軟硬件協同優化的路徑。在模型側,通過FP4量化大幅縮減模型體積、減少訪存開銷,並針對MiMo-V2.5-Pro的MoE(混合專家)架構特性,僅對MoE Expert進行參數FP4量化,其他模塊保留原有精度,使得模型整體能力基本持平原版。同時引入的DFlash高效推測解碼方法,採用塊級Masked並行預測,讓Draft模型在一次前向中同時填出一整塊Mask位置,解除了傳統自迴歸的串行約束,在Coding等場景中平均接受長度達到6.30,部分樣本最高7.14,意味著大模型每次驗證能“一口氣”確認更多內容。

在系統側,TileRT團隊為這一全新流程量身定製了編譯引擎與計算核。他們摒棄了逐算子啟動的傳統模式,引入常駐內核引擎讓計算流水線在GPU內部持續流轉,並在Tile級別對通信、搬運和張量計算進行精細拆解,實現微秒級的軟硬件收斂。TileRT是一家聚焦AI推理系統的獨立技術團隊,此前5月22日曾與智譜合作,將GLM-5.1高速版API輸出速度推至400 tokens/s,創下當時公開大模型商用API推理速度紀錄。

此次UltraSpeed模式的API已同步上線,定價為MiMo-V2.5-Pro標準版的3倍,提供約10倍的輸出速度提升。體驗採取申請制,6月9日至6月23日限時開放,通過審核的用戶可獲得兩週限時免費的Chat體驗。團隊已將MiMo-V2.5-Pro-FP4-DFlash checkpoint開源至HuggingFace,包含FP4量化權重與DFlash模型參數。

從產業視角看,萬億參數模型在通用GPU上突破千tokens/s,有望打開一系列新的應用想象空間。小米在公告中指出,速度的提升可以轉化為智能——在相同等待時間內,模型可並行運行數十條推理路徑,用速度換取思考深度和推理質量;對Coding Agent而言,極速推理能大幅提升開發者編碼效率;在實時決策領域,毫秒級的“思考-響應”循環使萬億模型有可能接入高頻量化交易信號生成、瞬時反欺詐風控攔截、智能競價等對時間極度敏感的場景;在醫療場景中,更快的病灶分析與風險預判也能為醫生爭取更多處置時間。

與Cerebras晶圓級集成或Groq純片上SRAM定製芯片等專用硬件路線不同,小米和TileRT選擇在通用GPU上實現這一速度,這有望降低實時AI推理的硬件門檻,使更多場景能以可接受的成本獲得近實時響應能力。不過,當前高接受率仍主要集中在Coding等結構化任務,通用對話場景的接受率尚不高,團隊也坦言推理資源緊張,申請制開放反映出大規模商用仍需時間。1000 tokens/s的技術突破值得關注,但距離普惠應用還有一段路要走。