DeepSeek 于 6 月 27 日开源的投机解码框架 DSpark,在短短一周内即被社区开发者成功移植至苹果芯片平台。移植版本命名为 mlx-dspark,由工程师 Abdur Rahim 独立完成,成为该技术在 Apple Silicon 上的首个原生实现。

Rahim 的移植工作聚焦于两个开源模型Gemma-4 12BQwen3-4B。实测数据显示,在 M4 Pro 芯片的 Mac 上,对比苹果官方 MLX 工具,Gemma-4 12B 的生成速度从每秒 18.4 个 token 提升至约 30 个 token,达到原来的约 1.6 倍;Qwen3-4B 则从每秒 52.9 个 token 提升至约 73 个 token,达到原来的约 1.4 倍。更为关键的是,mlx-dspark 实现了输出与原始模型逐字节相同,在提速的同时完全保真,这在社区移植工作中极为罕见。

DSpark 的核心机制是引入一个轻量级草稿模型,由它一次性生成多个候选词,再由目标模型并行核对并决定接受或拒绝。在数据中心 GPU 上,这种批量核对几乎不增加额外时间成本,因为解码环节本就受限于内存带宽。然而,苹果芯片的架构特性使得每多核对一个候选词,延迟就会线性增加。Rahim 实测发现,Gemma-4 12B 每多核对一个 token,耗时增加约 14 毫秒。他据此构建成本模型,推算出苹果芯片上该技术的理论加速上限约为 2.2 倍

为在 Mac 上高效运行,Rahim 将草稿模型量化4-bit,体积压缩至仅 1.8GB,确保内存占用可控。目标模型则保留在 8-bit 精度,以在核对成本与通过率之间取得最优平衡。他还发现,若草稿模型搭配未经指令微调的基础版目标模型,候选词通过率仅 47%;切换至指令微调版本后,通过率跃升至 82%,显著影响最终加速效果。

mlx-dspark 的另一项突破在于完整实现了 DSpark 论文中的温度采样方法,而非社区常见的仅支持贪婪解码的简化版。Rahim 验证了该采样流程下输出分布与目标模型严格一致,确保了生成质量的数学等价性。

在移植过程中,DFlash 论文作者之一 Jian Chen 主动联系 Rahim,建议整合其团队提出的另一种投机解码方案。DFlash 由 UCSD 助理教授、NVIDIA 研究科学家 Zhijian Liu 带队开发,采用并行“块扩散”方式一次性去噪 16 个 token,与 DSpark 逐步依赖关系猜测的路径不同。Rahim 迅速将 DFlash 接入同一 Mac 环境进行对比。结果显示,在代码和数学任务上,DFlash 的接受长度可达 5.95 至 6.20,生成速度约每秒 36 个 token,加速比达到约 2.1 倍,优于 DSpark。但在开放聊天等难以预测的场景中,DFlash 的整块接受率下降,优势不再,而 DSpark 凭借其 Markov 头 为候选词之间引入依赖关系,反而表现更佳。

随后的 mlx-dspark v0.0.3 版本正式将 DFlash 纳入同一软件包,并新增参数允许用户手动调整有效块长度,在聊天场景使用短块、代码与数学场景使用完整 16 块,实现单一工具覆盖多类任务。Rahim 还指出,该方法有望扩展至更大的 Qwen3-8B14B 草稿模型。

此次移植表明,原本面向数据中心 GPU 的推理加速技术,正快速向消费级硬件渗透。苹果芯片生态若能持续获得此类高效解码方案的支持,将显著提升 Mac 作为本地 AI 推理平台的能力边界,为开发者与用户提供更流畅的端侧大模型体验。