DeepSeek DSpark 移植苹果芯片：Mac 本地大模型推理提速最高 60%

工程师Abdur Rahim将DSpark技术移植到Mac，使Gemma-4 12B和Qwen3-4B模型生成速度分别提升1.6倍和1.4倍，且输出与原模型逐字节一致。

DeepSeek 于 6 月 27 日开源的投机解码框架 DSpark，在短短一周内即被社区开发者成功移植至苹果芯片平台。移植版本命名为 mlx-dspark，由工程师 Abdur Rahim 独立完成，成为该技术在 Apple Silicon 上的首个原生实现。

Rahim 的移植工作聚焦于两个开源模型：Gemma-4 12B 和 Qwen3-4B。实测数据显示，在 M4 Pro 芯片的 Mac 上，对比苹果官方 MLX 工具，Gemma-4 12B 的生成速度从每秒 18.4 个 token 提升至约 30 个 token，达到原来的约 1.6 倍；Qwen3-4B 则从每秒 52.9 个 token 提升至约 73 个 token，达到原来的约 1.4 倍。更为关键的是，mlx-dspark 实现了输出与原始模型逐字节相同，在提速的同时完全保真，这在社区移植工作中极为罕见。

DSpark 的核心机制是引入一个轻量级草稿模型，由它一次性生成多个候选词，再由目标模型并行核对并决定接受或拒绝。在数据中心 GPU 上，这种批量核对几乎不增加额外时间成本，因为解码环节本就受限于内存带宽。然而，苹果芯片的架构特性使得每多核对一个候选词，延迟就会线性增加。Rahim 实测发现，Gemma-4 12B 每多核对一个 token，耗时增加约 14 毫秒。他据此构建成本模型，推算出苹果芯片上该技术的理论加速上限约为 2.2 倍。

为在 Mac 上高效运行，Rahim 将草稿模型量化为 4-bit，体积压缩至仅 1.8GB，确保内存占用可控。目标模型则保留在 8-bit 精度，以在核对成本与通过率之间取得最优平衡。他还发现，若草稿模型搭配未经指令微调的基础版目标模型，候选词通过率仅 47%；切换至指令微调版本后，通过率跃升至 82%，显著影响最终加速效果。

mlx-dspark 的另一项突破在于完整实现了 DSpark 论文中的温度采样方法，而非社区常见的仅支持贪婪解码的简化版。Rahim 验证了该采样流程下输出分布与目标模型严格一致，确保了生成质量的数学等价性。

在移植过程中，DFlash 论文作者之一 Jian Chen 主动联系 Rahim，建议整合其团队提出的另一种投机解码方案。DFlash 由 UCSD 助理教授、NVIDIA 研究科学家 Zhijian Liu 带队开发，采用并行“块扩散”方式一次性去噪 16 个 token，与 DSpark 逐步依赖关系猜测的路径不同。Rahim 迅速将 DFlash 接入同一 Mac 环境进行对比。结果显示，在代码和数学任务上，DFlash 的接受长度可达 5.95 至 6.20，生成速度约每秒 36 个 token，加速比达到约 2.1 倍，优于 DSpark。但在开放聊天等难以预测的场景中，DFlash 的整块接受率下降，优势不再，而 DSpark 凭借其 Markov 头 为候选词之间引入依赖关系，反而表现更佳。

随后的 mlx-dspark v0.0.3 版本正式将 DFlash 纳入同一软件包，并新增参数允许用户手动调整有效块长度，在聊天场景使用短块、代码与数学场景使用完整 16 块，实现单一工具覆盖多类任务。Rahim 还指出，该方法有望扩展至更大的 Qwen3-8B 和 14B 草稿模型。

此次移植表明，原本面向数据中心 GPU 的推理加速技术，正快速向消费级硬件渗透。苹果芯片生态若能持续获得此类高效解码方案的支持，将显著提升 Mac 作为本地 AI 推理平台的能力边界，为开发者与用户提供更流畅的端侧大模型体验。

DeepSeek DSpark 移植苹果芯片：Mac 本地大模型推理提速最高 60%

延伸阅读

相关深度报道

相关每日新闻