全球超級計算機排名迎來重大變動。在最新發布的Top 500榜單中,位於深圳國家超算中心神威(LineShine)系統首次提交成績便空降榜首,取代了此前排名第一的美國El Capitan。根據Linpack基準測試,神威實現了2.198 ExaFLOPS的雙精度浮點(FP64)性能,成為該榜單歷史上首臺僅依靠CPU就能持續突破2 ExaFLOPS的機器。

神威系統由深圳雲計算中心構建,其核心是半定製的LX2處理器。這款芯片基於Armv9指令集架構,每顆處理器集成304個核心,運行頻率為1.55 GHz。整個系統總計部署了超過1379萬個計算核心,並通過自研的靈啟(LingQi)互聯技術進行通信,整機功耗約為42.2兆瓦。在能效方面,神威的每瓦性能為52.07 GFLOPS/W,低於El Capitan的60.94 GFLOPS/W,但顯著優於幾年前同為純CPU架構的日本超算富嶽(Fugaku)——後者在優化與非優化狀態下的能效比僅在14.78至16.84 GFLOPS/W之間。

除了Linpack性能登頂,神威在HPCG基準測試中也以22.00 HPCG-PFLOPS的成績位居第一,顯示出其在傳統科學計算任務中的強大實力。然而,在衡量AI與混合精度計算能力的HPL-MxP測試中,神威僅取得7.92 EFLOPS,落後於El Capitan、FrontierAurora等集成GPU或專用加速器的系統。這一差距意味著,儘管神威在傳統超算任務上表現卓越,但在當前熱門的AI訓練和推理工作負載上,其適用性受到一定限制。

從技術架構上看,LX2處理器採用了較為獨特的設計。每顆芯片包含兩個計算芯粒,共304個CPU核心,分為8個集群,每個集群含38個核心。每個核心均配備了Arm SVE(可擴展向量擴展)SME(可擴展矩陣擴展)單元,能夠加速FP64、FP32、BF16、FP16和INT8等多種數據格式的向量與矩陣運算。在內存架構上,LX2集成了32 GB的片上HBM內存,提供高達4 TB/s的帶寬,同時支持最多256 GB的外部DDR5內存,試圖在帶寬與容量之間取得平衡。

儘管如此,當從FP64轉向混合精度計算時,LX2僅獲得了3.6倍的性能提升。這一幅度明顯低於AMD Instinct MI300A英特爾Ponte Vecchio等集成低精度加速器的系統。分析認為,內存帶寬、軟件生態成熟度以及互聯效率等多重因素,共同限制了其混合精度性能的發揮。不過,現在對LX2在混合精度工作負載上的潛力下最終結論可能為時過早。

此次神威系統提交成績本身也傳遞出重要信號。該機器完全基於國產技術構建,其公開亮相表明相關機構對供應鏈的自主可控具有充分信心,認為美國政府的出口管制措施無法影響這些技術的生產。在全球超算競爭日趨激烈、AI算力需求爆發的背景下,神威以純CPU路線重返性能巔峰,為高性能計算產業提供了除加速器方案之外的另一種技術敘事,也讓圍繞算力基礎設施的資本與戰略討論變得更加多元。