最新發布的第67屆TOP500榜單出現重大變動:中國超算LineShine以2.198 exaflops的High Performance Linpack(HPL)成績空降榜首,將此前排名第一的美國El Capitan系統(1.809 exaflops)擠到第二位,領先幅度超過20%。這是自2017年神威·太湖之光之後,中國系統首次重回超算巔峰,而且是以一種極具象徵意義的方式——完全不用GPU。
LineShine部署在深圳國家超算中心(NSCS),由深圳雲計算中心建造。整套系統基於名為凌坤(LingKun)的自主平臺,包含20,480個計算節點,每個節點搭載兩顆LX2處理器。這些處理器基於Armv9架構,每顆擁有304個核心(分為8個集群,每集群38核),運行頻率1.55 GHz,總計動用13,789,440個核心。LX2支持Arm的可擴展向量擴展(SVE)和可擴展矩陣擴展(SME),覆蓋FP64、FP32、BF16、FP16及INT8等多種精度。每顆LX2搭配32 GB的封裝內HBM(帶寬高達4 TB/s)和最多256 GB的片外DDR5內存,這種設計更接近日本富嶽(Fugaku)超算的A64FX處理器,而非傳統服務器CPU。節點間通過自研的凌啟(LingQi)互聯網絡連接,操作系統為國產麒麟OS。
LX2的設計方並未公開,但據Jon Peddie Research分析,該芯片可能出自華為之手,且該項目的試點階段據稱運行在華為鯤鵬服務器上。製造工藝和代工廠同樣未獲證實,但考慮到極紫外光刻(EUV)設備和臺積電產能均對中國受限,中芯國際(SMIC)的7納米級工藝是合乎邏輯的國內選項。無論具體細節如何,LineShine的出現證明,一個被嚴厲制裁的國家,已能在不依賴任何西方加速器的情況下,建造出百億億次級(exascale)的旗艦超算。
更耐人尋味的是中國選擇公開這一成果。自2021年前後,中國便停止向TOP500提交其最快系統,外界普遍認為其早已擁有exascale級算力,例如神威的OceanLight和國防科大打造的天河三號均通過戈登·貝爾獎論文露面,卻從未上榜。TOP500聯合創始人Jack Dongarra曾多次表示,中國研究人員告訴他,不提交是出於避免美國關注的考量。如今LineShine高調登頂,被外界視為一種姿態轉變。據稱該系統開發未使用公共資金,降低了公開後的政治風險,而全自主設計意味著華盛頓無法通過掐斷西方零部件來反制。HPC分析公司Intersect360 Research首席執行官Addison Snell對路透社表示,他對性能並不意外,意外的是中國提交了結果並希望獲得認可。這本質上是在宣告:制裁並未彌閤中國所看重的技術差距。
不過,LineShine的冠軍頭銜有其特定邊界。在更貼近真實科學計算、側重內存與通信性能的HPCG測試中,它以22.00 petaflops同樣位居第一。但在衡量混合精度(近似AI訓練)的HPL-MxP基準中,它僅以7.92 exaflops排名第四,相對其FP64成績僅提升3.6倍。相比之下,基於加速器的El Capitan在HPL-MxP上跑出16.7 exaflops,是其標準成績的9.2倍,Aurora和Frontier也呈現類似倍數。這清晰揭示了一個事實:一旦精度降低,GPU和APU的吞吐量優勢便急劇拉大,純CPU架構在AI訓練負載上並非世界領先。能效方面同樣如此,LineShine功耗42,220千瓦,Linpack能效為52.07 gigaflops/watt,優於英特爾的Aurora,但落後於El Capitan的60.94 gigaflops/watt——它產出更多總FP64算力,卻多消耗約42%的電力。
因此,LineShine是名副其實的雙精度浮點冠軍,但並非AI訓練王者。TOP500排名恰恰由FP64 Linpack決定,這正是寬HBM供給的CPU仍能與加速器正面抗衡的領域。中國此舉更像是在特定維度上展示自主技術棧的成熟,而非宣稱全面超越。
從整體榜單格局看,美國仍佔據主導:前五名中,El Capitan(1.809 exaflops)、Frontier(1.353 exaflops)和Aurora(1.012 exaflops)均為美國系統,德國的JUPITER Booster以1.000 exaflops成為歐洲首臺exascale系統。AMD的芯片繼續統治加速計算領域,該公司稱其驅動了榜單上191套系統,同比增長11%,佔本屆新入榜系統的41%。在能效方面,AMD驅動了Green500前50名中56%的系統,其首批Instinct MI355X部署也進入了榜單。LineShine的登頂並未削弱AMD在更廣泛加速計算與AI負載中的強勢地位,兩者本質上並非同一賽道的競爭者。