小米萬億引數模型推理破千tokens/s，僅需8張GPU

小米MiMo團隊宣佈旗艦模型輸出速度首次突破1000 tokens/s，僅需8張GPU。

小米在AI推理速度上邁出了引人關注的一步。6月9日，小米MiMo團隊與推理系統團隊TileRT聯合宣佈，其旗艦模型Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已實現萬億引數（1T）模型的輸出速度首次突破1000 tokens/s。這一成果由小米創始人雷軍通過社交媒體對外公佈，在AI產業圈內迅速引發討論。

1000 tokens/s的速度意味著什麼？團隊給出了一個直觀的對比案例：在一項複雜的視覺化大屏生成任務中，UltraSpeed版本僅需13秒即可完成，而標準版耗時6分15秒，同等效果下最高提速達到28倍。這背後並非依賴專用AI晶片，而是僅使用了一個標準的8卡通用GPU節點。

技術實現上，團隊採用了軟硬體協同最佳化的路徑。在模型側，通過FP4量化大幅縮減模型體積、減少訪存開銷，並針對MiMo-V2.5-Pro的MoE（混合專家）架構特性，僅對MoE Expert進行引數FP4量化，其他模組保留原有精度，使得模型整體能力基本持平原版。同時引入的DFlash高效推測解碼方法，採用塊級Masked並行預測，讓Draft模型在一次前向中同時填出一整塊Mask位置，解除了傳統自迴歸的序列約束，在Coding等場景中平均接受長度達到6.30，部分樣本最高7.14，意味著大模型每次驗證能“一口氣”確認更多內容。

在系統側，TileRT團隊為這一全新流程量身定製了編譯引擎與計算核。他們摒棄了逐運算元啟動的傳統模式，引入常駐核心引擎讓計算流水線在GPU內部持續流轉，並在Tile級別對通訊、搬運和張量計算進行精細拆解，實現微秒級的軟硬體收斂。TileRT是一家聚焦AI推理系統的獨立技術團隊，此前5月22日曾與智譜合作，將GLM-5.1高速版API輸出速度推至400 tokens/s，創下當時公開大模型商用API推理速度紀錄。

此次UltraSpeed模式的API已同步上線，定價為MiMo-V2.5-Pro標準版的3倍，提供約10倍的輸出速度提升。體驗採取申請制，6月9日至6月23日限時開放，通過稽核的使用者可獲得兩週限時免費的Chat體驗。團隊已將MiMo-V2.5-Pro-FP4-DFlash checkpoint開源至HuggingFace，包含FP4量化權重與DFlash模型引數。

從產業視角看，萬億引數模型在通用GPU上突破千tokens/s，有望開啟一系列新的應用想象空間。小米在公告中指出，速度的提升可以轉化為智慧——在相同等待時間內，模型可並行執行數十條推理路徑，用速度換取思考深度和推理質量；對Coding Agent而言，極速推理能大幅提升開發者編碼效率；在即時決策領域，毫秒級的“思考-響應”迴圈使萬億模型有可能接入高頻量化交易訊號生成、瞬時反欺詐風控攔截、智慧競價等對時間極度敏感的場景；在醫療場景中，更快的病灶分析與風險預判也能為醫生爭取更多處置時間。

與Cerebras晶圓級整合或Groq純片上SRAM定製晶片等專用硬體路線不同，小米和TileRT選擇在通用GPU上實現這一速度，這有望降低即時AI推理的硬體門檻，使更多場景能以可接受的成本獲得近即時響應能力。不過，當前高接受率仍主要集中在Coding等結構化任務，通用對話場景的接受率尚不高，團隊也坦言推理資源緊張，申請制開放反映出大規模商用仍需時間。1000 tokens/s的技術突破值得關注，但距離普惠應用還有一段路要走。

小米萬億引數模型推理破千tokens/s，僅需8張GPU

延伸閱讀

相關深度報道

相關每日新聞