DeepSeek長期面臨的服務器卡頓與高峰宕機問題,可能迎來根本性緩解。創始人梁文鋒以作者身份發表了一篇題為《DSpark:基於置信度調度的推測解碼與半自迴歸生成》的論文,提出一種新的推理加速方案,實測可將生成速度提升60%至80%,並在高併發場景下顯著提高系統吞吐量。

這篇論文是梁文鋒自2024年發表《DeepSeek LLM》以來的第12篇掛名論文。值得注意的是,DSpark的核心思路與他在2010年完成的碩士論文《基於低成本PTZ攝像機的目標跟蹤算法研究》一脈相承——當時他用幾百元的民用攝像頭,通過算法優化達到接近數萬元工業相機的跟蹤精度。時隔16年,他依然在用算法為硬件成本尋找替代方案。

DSpark解決的是大模型推理中的一個根本矛盾。傳統自迴歸生成模式下,模型每輸出一個token,都必須重新處理之前所有已生成的文本,導致速度瓶頸。業界提出的投機解碼技術,通過引入一個輕量草稿模型預先猜測一串token,再由大模型一次性驗證,從而跳過重複計算。但現有方案要麼猜得太慢,要麼猜得太多導致後期token正確率急劇下降,形成所謂的“後綴衰減”現象。

DSpark的創新在於將兩種策略融合為半自迴歸生成,並引入置信度調度驗證機制。草稿模型快速生成一批候選token後,系統為每個token打出置信度分數,然後根據當前GPU負載動態決定提交驗證的批次大小。服務器空閒時,儘可能多驗證以獲取更多正確token;高峰繁忙時,只提交高分批次,避免將算力浪費在大概率錯誤的token上。

實測數據顯示,在嚴格的低延遲要求下,DSpark的吞吐量可達前代方案MTP-1的6倍以上。在中等負載場景中,單GPU總吞吐量從10000 token/秒提升至15100 token/秒,增幅達51%。論文從數學上證明,投機解碼的拒絕採樣機制可保證輸出分佈與原模型完全一致,離線測試也未發現回答質量出現統計顯著差異。

對DeepSeek而言,推理成本是永續性支出,用戶每問一個問題,GPU就要運行一次。DSpark在不增加硬件的前提下大幅提升單卡服務能力,意味著單位token成本顯著下降。DeepSeek的API定價本就處於行業最低水平,成本進一步壓縮後,可能帶來token價格下調或免費額度提升。

更具產業影響的是,DeepSeek此次不僅發佈了模型權重,還將專門用於訓練投機解碼草稿模型的DeepSpec訓練框架完整開源。這意味著其他模型廠商可以用這套工具箱為自己的模型訓練草稿模型,從而拉低整個行業的推理成本基準線。

梁文鋒在DeepSeek同時扮演投資者、管理者和研究者三重角色。DeepSeek由他創立的幻方量化用利潤持續供養,期間多次拒絕外部投資。這種決策閉環使得“用算法優化替代硬件堆疊”成為貫穿公司研發的主線,DSpark正是這一邏輯的最新產物。