DeepSeek DSpark 移植蘋果芯片：Mac 本地大模型推理提速最高 60%

工程師Abdur Rahim將DSpark技術移植到Mac，使Gemma-4 12B和Qwen3-4B模型生成速度分別提升1.6倍和1.4倍，且輸出與原模型逐字節一致。

DeepSeek 於 6 月 27 日開源的投機解碼框架 DSpark，在短短一週內即被社區開發者成功移植至蘋果芯片平臺。移植版本命名為 mlx-dspark，由工程師 Abdur Rahim 獨立完成，成為該技術在 Apple Silicon 上的首個原生實現。

Rahim 的移植工作聚焦於兩個開源模型：Gemma-4 12B 和 Qwen3-4B。實測數據顯示，在 M4 Pro 芯片的 Mac 上，對比蘋果官方 MLX 工具，Gemma-4 12B 的生成速度從每秒 18.4 個 token 提升至約 30 個 token，達到原來的約 1.6 倍；Qwen3-4B 則從每秒 52.9 個 token 提升至約 73 個 token，達到原來的約 1.4 倍。更為關鍵的是，mlx-dspark 實現了輸出與原始模型逐字節相同，在提速的同時完全保真，這在社區移植工作中極為罕見。

DSpark 的核心機制是引入一個輕量級草稿模型，由它一次性生成多個候選詞，再由目標模型並行核對並決定接受或拒絕。在數據中心 GPU 上，這種批量核對幾乎不增加額外時間成本，因為解碼環節本就受限於內存帶寬。然而，蘋果芯片的架構特性使得每多核對一個候選詞，延遲就會線性增加。Rahim 實測發現，Gemma-4 12B 每多核對一個 token，耗時增加約 14 毫秒。他據此構建成本模型，推算出蘋果芯片上該技術的理論加速上限約為 2.2 倍。

為在 Mac 上高效運行，Rahim 將草稿模型量化為 4-bit，體積壓縮至僅 1.8GB，確保內存佔用可控。目標模型則保留在 8-bit 精度，以在核對成本與通過率之間取得最優平衡。他還發現，若草稿模型搭配未經指令微調的基礎版目標模型，候選詞通過率僅 47%；切換至指令微調版本後，通過率躍升至 82%，顯著影響最終加速效果。

mlx-dspark 的另一項突破在於完整實現了 DSpark 論文中的溫度採樣方法，而非社區常見的僅支持貪婪解碼的簡化版。Rahim 驗證了該採樣流程下輸出分佈與目標模型嚴格一致，確保了生成質量的數學等價性。

在移植過程中，DFlash 論文作者之一 Jian Chen 主動聯繫 Rahim，建議整合其團隊提出的另一種投機解碼方案。DFlash 由 UCSD 助理教授、NVIDIA 研究科學家 Zhijian Liu 帶隊開發，採用並行“塊擴散”方式一次性去噪 16 個 token，與 DSpark 逐步依賴關係猜測的路徑不同。Rahim 迅速將 DFlash 接入同一 Mac 環境進行對比。結果顯示，在代碼和數學任務上，DFlash 的接受長度可達 5.95 至 6.20，生成速度約每秒 36 個 token，加速比達到約 2.1 倍，優於 DSpark。但在開放聊天等難以預測的場景中，DFlash 的整塊接受率下降，優勢不再，而 DSpark 憑藉其 Markov 頭 為候選詞之間引入依賴關係，反而表現更佳。

隨後的 mlx-dspark v0.0.3 版本正式將 DFlash 納入同一軟件包，並新增參數允許用戶手動調整有效塊長度，在聊天場景使用短塊、代碼與數學場景使用完整 16 塊，實現單一工具覆蓋多類任務。Rahim 還指出，該方法有望擴展至更大的 Qwen3-8B 和 14B 草稿模型。

此次移植表明，原本面向數據中心 GPU 的推理加速技術，正快速向消費級硬件滲透。蘋果芯片生態若能持續獲得此類高效解碼方案的支持，將顯著提升 Mac 作為本地 AI 推理平臺的能力邊界，為開發者與用戶提供更流暢的端側大模型體驗。

DeepSeek DSpark 移植蘋果芯片：Mac 本地大模型推理提速最高 60%

延伸閱讀

相關深度報道

相關每日新聞