在德國漢堡舉行的ISC 2026大會上,一臺名為LineShine的中國超級計算機成為全場焦點。它憑藉2.198 exaflops的Linpack性能,一舉超越此前的冠軍El Capitan,空降TOP500榜單首位。國家超級計算深圳中心主任、LineShine首席設計師盧宇彤在專題演講中披露了這臺神秘系統的更多細節,揭示了一條與當前主流加速路線截然不同的技術路徑。

LineShine的核心是完全基於LX2 ARM處理器構建的CPU-only集群,沒有使用任何GPU或其他加速器。每顆LX2芯片採用chiplet架構,運行頻率1.55 GHz,單芯片集成304個ARMv9核心,劃分為四個NUMA域,每個域包含38個核心和4 GB高帶寬內存(HBM)。系統總共部署了20,480個計算節點,提供近1400萬個ARM核心,單芯片FP64算力達到60.3 teraflops

在互聯方面,LineShine採用了中國自研的LingQi網絡,採用雙平面多軌胖樹拓撲,單節點帶寬高達1.6 Tb/s,延遲約1微秒。整個系統安裝在90個機櫃中,每機櫃集成512顆CPU,提供30 petaflops的FP64算力,採用380V直流供電,單機櫃功耗580千瓦。系統總功耗達到42.2兆瓦,並採用雙面冷板實現100%液冷散熱。

儘管功耗高於El Capitan的29.7兆瓦,能效比(52.07 Gigaflops/Watt)略遜於後者的60.95 Gigaflops/Watt,但LineShine在多個基準測試中展現了均衡的設計理念。在更貼近真實應用的HPCG基準上,它創下了22.00 Petaflops的新紀錄;在混合精度HPL-MxP測試中,也取得了7.92 exaflops的成績。TOP500組織評價稱,其HPL到HPL-MxP僅3.6倍的加速比,恰好印證了這是一套無專用低精度加速器的純CPU設計。

盧宇彤將LineShine的開發理念概括為ABC原則:應用驅動、平衡架構、全棧協同設計。她強調,這套系統旨在“繼承HPC傳統,擁抱AI驅動的未來,迴歸計算加速的本質”。通過將矩陣加速單元直接集成在芯片核心上,大幅減少了數據搬運開銷,同時藉助可擴展向量擴展(SVE)和可擴展矩陣擴展(SME),使芯片具備了多精度計算能力,既能高效處理傳統建模與仿真任務,也能勝任新興的AI工作負載。

在軟件生態上,LineShine運行麒麟操作系統,並構建了統一的HPC與AI軟件環境,提供矩陣加速套件以充分利用SME、HBM及DDR內存資源。盧宇彤透露,自2025年底上線以來,該系統已開始在氣候模擬、計算流體力學、地震模擬、材料科學、能源、藥物設計、神經科學及科學AI等多個領域為中國研究人員提供算力服務。她表示,團隊致力於構建一個面向多樣化科學與工程應用的生態系統,並歡迎各種形式的國際合作。

LineShine的橫空出世,正值全球高性能計算向百億億次時代邁進的關鍵節點。它以純ARM CPU路線實現登頂,不僅打破了長期以來由GPU加速器主導的超算格局,也向外界展示了在先進製程與加速器獲取受限的背景下,通過架構創新與全棧優化依然可以衝擊性能巔峰的可能性。對於關注AI基礎設施的投資者而言,這一事件凸顯了異構計算之外的另一條技術路徑正在加速成熟,其對未來數據中心芯片選擇、能耗設計以及自主生態建設的長遠影響值得持續追蹤。