中國AI公司DeepSeek發佈了一項名為DSpark的新推理框架,據稱可將單用戶AI響應速度提升60%至85%。該技術通過重新設計文本生成流程,在現有硬件上擠出更高性能,為面臨美國芯片出口管制的中國AI產業提供了戰略性效率突破。
當前主流大語言模型通常逐詞生成文本,導致GPU利用率偏低,長回覆等待時間過長。DSpark採用推測解碼機制,由一個小型輕量模型快速提出候選答案,再由大型模型進行批量驗證。與常見做法不同,DSpark生成的是小詞組而非單個令牌,從源頭提升整體效率。此外,框架內置的置信度系統可根據計算負載動態調整驗證深度,減少因拒絕候選令牌而產生的無效算力消耗。
DeepSeek公佈的測試數據顯示,在DeepSeek-V4-Flash和DeepSeek-V4-Pro兩款模型的實際流量環境下,DSpark將吞吐量與單用戶生成速度的性能前沿同時推至遠超MTP基線的水平。公司還使用Google DeepMind的Gemma和阿里巴巴的Qwen等開放模型進行了驗證,表明該方法具有跨模型通用性。DSpark框架及聯合北京大學開發的DeepSeek-V4-Pro模型已在Hugging Face和GitHub上以MIT許可證開源,技術細節詳見相關論文。
在美國持續收緊對華高端芯片出口管制的背景下,DSpark的戰略意義不容忽視。更快的推理速度意味著處理相同請求所需的芯片數量減少,基礎設施成本隨之降低。這對數據中心建設與高性能芯片儲備均落後於美國的中國和歐盟而言,提供了一條用更少硬件獲取更多AI性能的路徑。
然而,效率提升對芯片總需求的長期影響仍存變數。傑文斯悖論指出,資源使用效率的提高往往反而刺激更大規模的需求。推理效率提升確實降低了單次查詢的芯片需求,但釋放出的算力可能迅速被更多AI請求、更長上下文或新應用所吸收,總芯片需求未必下降。DeepSeek自身也承認,DSpark“實現了此前無法企及的性能層級,改變了服務系統的帕累託前沿”。
短期來看,在芯片供應緊張且出口限制持續的格局下,這類效率增益仍為中國爭取到寶貴的戰略緩衝。它削弱了美國將芯片作為地緣政治槓桿的能力,讓中國AI產業在受限條件下仍能向更高性能層級邁進。對於關注AI算力敘事與地緣估值的投資者而言,DSpark代表的不只是一項工程優化,更是產業鏈在硬件約束下尋找替代路徑的典型案例。