中國神威新超算登頂Top 500，純CPU實現超2 ExaFLOPS雙精度

中國超算「神威·海洋之光」在Top500榜單中憑藉雙精度性能奪冠。

全球超級計算機排名迎來重大變動。在最新發布的Top 500榜單中，位於深圳國家超算中心的神威（LineShine）系統首次提交成績便空降榜首，取代了此前排名第一的美國El Capitan。根據Linpack基準測試，神威實現了2.198 ExaFLOPS的雙精度浮點（FP64）性能，成為該榜單歷史上首臺僅依靠CPU就能持續突破2 ExaFLOPS的機器。

神威系統由深圳雲計算中心構建，其核心是半定製的LX2處理器。這款芯片基於Armv9指令集架構，每顆處理器集成304個核心，運行頻率為1.55 GHz。整個系統總計部署了超過1379萬個計算核心，並通過自研的靈啟（LingQi）互聯技術進行通信，整機功耗約為42.2兆瓦。在能效方面，神威的每瓦性能為52.07 GFLOPS/W，低於El Capitan的60.94 GFLOPS/W，但顯著優於幾年前同為純CPU架構的日本超算富嶽（Fugaku）——後者在優化與非優化狀態下的能效比僅在14.78至16.84 GFLOPS/W之間。

除了Linpack性能登頂，神威在HPCG基準測試中也以22.00 HPCG-PFLOPS的成績位居第一，顯示出其在傳統科學計算任務中的強大實力。然而，在衡量AI與混合精度計算能力的HPL-MxP測試中，神威僅取得7.92 EFLOPS，落後於El Capitan、Frontier和Aurora等集成GPU或專用加速器的系統。這一差距意味著，儘管神威在傳統超算任務上表現卓越，但在當前熱門的AI訓練和推理工作負載上，其適用性受到一定限制。

從技術架構上看，LX2處理器採用了較為獨特的設計。每顆芯片包含兩個計算芯粒，共304個CPU核心，分為8個集群，每個集群含38個核心。每個核心均配備了Arm SVE（可擴展向量擴展）和SME（可擴展矩陣擴展）單元，能夠加速FP64、FP32、BF16、FP16和INT8等多種數據格式的向量與矩陣運算。在內存架構上，LX2集成了32 GB的片上HBM內存，提供高達4 TB/s的帶寬，同時支持最多256 GB的外部DDR5內存，試圖在帶寬與容量之間取得平衡。

儘管如此，當從FP64轉向混合精度計算時，LX2僅獲得了3.6倍的性能提升。這一幅度明顯低於AMD Instinct MI300A或英特爾Ponte Vecchio等集成低精度加速器的系統。分析認為，內存帶寬、軟件生態成熟度以及互聯效率等多重因素，共同限制了其混合精度性能的發揮。不過，現在對LX2在混合精度工作負載上的潛力下最終結論可能為時過早。

此次神威系統提交成績本身也傳遞出重要信號。該機器完全基於國產技術構建，其公開亮相表明相關機構對供應鏈的自主可控具有充分信心，認為美國政府的出口管制措施無法影響這些技術的生產。在全球超算競爭日趨激烈、AI算力需求爆發的背景下，神威以純CPU路線重返性能巔峰，為高性能計算產業提供了除加速器方案之外的另一種技術敘事，也讓圍繞算力基礎設施的資本與戰略討論變得更加多元。

中國神威新超算登頂Top 500，純CPU實現超2 ExaFLOPS雙精度

延伸閱讀

相關深度報道

相關每日新聞