最新发布的第67届TOP500榜单出现重大变动:中国超算LineShine2.198 exaflops的High Performance Linpack(HPL)成绩空降榜首,将此前排名第一的美国El Capitan系统(1.809 exaflops)挤到第二位,领先幅度超过20%。这是自2017年神威·太湖之光之后,中国系统首次重回超算巅峰,而且是以一种极具象征意义的方式——完全不用GPU。

LineShine部署在深圳国家超算中心(NSCS),由深圳云计算中心建造。整套系统基于名为凌坤(LingKun)的自主平台,包含20,480个计算节点,每个节点搭载两颗LX2处理器。这些处理器基于Armv9架构,每颗拥有304个核心(分为8个集群,每集群38核),运行频率1.55 GHz,总计动用13,789,440个核心。LX2支持Arm的可扩展向量扩展(SVE)和可扩展矩阵扩展(SME),覆盖FP64、FP32、BF16、FP16及INT8等多种精度。每颗LX2搭配32 GB的封装内HBM(带宽高达4 TB/s)和最多256 GB的片外DDR5内存,这种设计更接近日本富岳(Fugaku)超算的A64FX处理器,而非传统服务器CPU。节点间通过自研的凌启(LingQi)互联网络连接,操作系统为国产麒麟OS

LX2的设计方并未公开,但据Jon Peddie Research分析,该芯片可能出自华为之手,且该项目的试点阶段据称运行在华为鲲鹏服务器上。制造工艺和代工厂同样未获证实,但考虑到极紫外光刻(EUV)设备和台积电产能均对中国受限,中芯国际(SMIC)的7纳米级工艺是合乎逻辑的国内选项。无论具体细节如何,LineShine的出现证明,一个被严厉制裁的国家,已能在不依赖任何西方加速器的情况下,建造出百亿亿次级(exascale)的旗舰超算。

更耐人寻味的是中国选择公开这一成果。自2021年前后,中国便停止向TOP500提交其最快系统,外界普遍认为其早已拥有exascale级算力,例如神威的OceanLight和国防科大打造的天河三号均通过戈登·贝尔奖论文露面,却从未上榜。TOP500联合创始人Jack Dongarra曾多次表示,中国研究人员告诉他,不提交是出于避免美国关注的考量。如今LineShine高调登顶,被外界视为一种姿态转变。据称该系统开发未使用公共资金,降低了公开后的政治风险,而全自主设计意味着华盛顿无法通过掐断西方零部件来反制。HPC分析公司Intersect360 Research首席执行官Addison Snell对路透社表示,他对性能并不意外,意外的是中国提交了结果并希望获得认可。这本质上是在宣告:制裁并未弥合中国所看重的技术差距。

不过,LineShine的冠军头衔有其特定边界。在更贴近真实科学计算、侧重内存与通信性能的HPCG测试中,它以22.00 petaflops同样位居第一。但在衡量混合精度(近似AI训练)的HPL-MxP基准中,它仅以7.92 exaflops排名第四,相对其FP64成绩仅提升3.6倍。相比之下,基于加速器的El Capitan在HPL-MxP上跑出16.7 exaflops,是其标准成绩的9.2倍,Aurora和Frontier也呈现类似倍数。这清晰揭示了一个事实:一旦精度降低,GPU和APU的吞吐量优势便急剧拉大,纯CPU架构在AI训练负载上并非世界领先。能效方面同样如此,LineShine功耗42,220千瓦,Linpack能效为52.07 gigaflops/watt,优于英特尔的Aurora,但落后于El Capitan的60.94 gigaflops/watt——它产出更多总FP64算力,却多消耗约42%的电力。

因此,LineShine是名副其实的双精度浮点冠军,但并非AI训练王者。TOP500排名恰恰由FP64 Linpack决定,这正是宽HBM供给的CPU仍能与加速器正面抗衡的领域。中国此举更像是在特定维度上展示自主技术栈的成熟,而非宣称全面超越。

从整体榜单格局看,美国仍占据主导:前五名中,El Capitan(1.809 exaflops)、Frontier(1.353 exaflops)和Aurora(1.012 exaflops)均为美国系统,德国的JUPITER Booster以1.000 exaflops成为欧洲首台exascale系统。AMD的芯片继续统治加速计算领域,该公司称其驱动了榜单上191套系统,同比增长11%,占本届新入榜系统的41%。在能效方面,AMD驱动了Green500前50名中56%的系统,其首批Instinct MI355X部署也进入了榜单。LineShine的登顶并未削弱AMD在更广泛加速计算与AI负载中的强势地位,两者本质上并非同一赛道的竞争者。