DeepSeek 於 6 月 27 日開源的投機解碼框架 DSpark,在短短一週內即被社區開發者成功移植至蘋果芯片平臺。移植版本命名為 mlx-dspark,由工程師 Abdur Rahim 獨立完成,成為該技術在 Apple Silicon 上的首個原生實現。
Rahim 的移植工作聚焦於兩個開源模型:Gemma-4 12B 和 Qwen3-4B。實測數據顯示,在 M4 Pro 芯片的 Mac 上,對比蘋果官方 MLX 工具,Gemma-4 12B 的生成速度從每秒 18.4 個 token 提升至約 30 個 token,達到原來的約 1.6 倍;Qwen3-4B 則從每秒 52.9 個 token 提升至約 73 個 token,達到原來的約 1.4 倍。更為關鍵的是,mlx-dspark 實現了輸出與原始模型逐字節相同,在提速的同時完全保真,這在社區移植工作中極為罕見。
DSpark 的核心機制是引入一個輕量級草稿模型,由它一次性生成多個候選詞,再由目標模型並行核對並決定接受或拒絕。在數據中心 GPU 上,這種批量核對幾乎不增加額外時間成本,因為解碼環節本就受限於內存帶寬。然而,蘋果芯片的架構特性使得每多核對一個候選詞,延遲就會線性增加。Rahim 實測發現,Gemma-4 12B 每多核對一個 token,耗時增加約 14 毫秒。他據此構建成本模型,推算出蘋果芯片上該技術的理論加速上限約為 2.2 倍。
為在 Mac 上高效運行,Rahim 將草稿模型量化為 4-bit,體積壓縮至僅 1.8GB,確保內存佔用可控。目標模型則保留在 8-bit 精度,以在核對成本與通過率之間取得最優平衡。他還發現,若草稿模型搭配未經指令微調的基礎版目標模型,候選詞通過率僅 47%;切換至指令微調版本後,通過率躍升至 82%,顯著影響最終加速效果。
mlx-dspark 的另一項突破在於完整實現了 DSpark 論文中的溫度採樣方法,而非社區常見的僅支持貪婪解碼的簡化版。Rahim 驗證了該採樣流程下輸出分佈與目標模型嚴格一致,確保了生成質量的數學等價性。
在移植過程中,DFlash 論文作者之一 Jian Chen 主動聯繫 Rahim,建議整合其團隊提出的另一種投機解碼方案。DFlash 由 UCSD 助理教授、NVIDIA 研究科學家 Zhijian Liu 帶隊開發,採用並行“塊擴散”方式一次性去噪 16 個 token,與 DSpark 逐步依賴關係猜測的路徑不同。Rahim 迅速將 DFlash 接入同一 Mac 環境進行對比。結果顯示,在代碼和數學任務上,DFlash 的接受長度可達 5.95 至 6.20,生成速度約每秒 36 個 token,加速比達到約 2.1 倍,優於 DSpark。但在開放聊天等難以預測的場景中,DFlash 的整塊接受率下降,優勢不再,而 DSpark 憑藉其 Markov 頭 為候選詞之間引入依賴關係,反而表現更佳。
隨後的 mlx-dspark v0.0.3 版本正式將 DFlash 納入同一軟件包,並新增參數允許用戶手動調整有效塊長度,在聊天場景使用短塊、代碼與數學場景使用完整 16 塊,實現單一工具覆蓋多類任務。Rahim 還指出,該方法有望擴展至更大的 Qwen3-8B 和 14B 草稿模型。
此次移植表明,原本面向數據中心 GPU 的推理加速技術,正快速向消費級硬件滲透。蘋果芯片生態若能持續獲得此類高效解碼方案的支持,將顯著提升 Mac 作為本地 AI 推理平臺的能力邊界,為開發者與用戶提供更流暢的端側大模型體驗。