全球超级计算机排名迎来重大变动。在最新发布的Top 500榜单中,位于深圳国家超算中心神威(LineShine)系统首次提交成绩便空降榜首,取代了此前排名第一的美国El Capitan。根据Linpack基准测试,神威实现了2.198 ExaFLOPS的双精度浮点(FP64)性能,成为该榜单历史上首台仅依靠CPU就能持续突破2 ExaFLOPS的机器。

神威系统由深圳云计算中心构建,其核心是半定制的LX2处理器。这款芯片基于Armv9指令集架构,每颗处理器集成304个核心,运行频率为1.55 GHz。整个系统总计部署了超过1379万个计算核心,并通过自研的灵启(LingQi)互联技术进行通信,整机功耗约为42.2兆瓦。在能效方面,神威的每瓦性能为52.07 GFLOPS/W,低于El Capitan的60.94 GFLOPS/W,但显著优于几年前同为纯CPU架构的日本超算富岳(Fugaku)——后者在优化与非优化状态下的能效比仅在14.78至16.84 GFLOPS/W之间。

除了Linpack性能登顶,神威在HPCG基准测试中也以22.00 HPCG-PFLOPS的成绩位居第一,显示出其在传统科学计算任务中的强大实力。然而,在衡量AI与混合精度计算能力的HPL-MxP测试中,神威仅取得7.92 EFLOPS,落后于El Capitan、FrontierAurora等集成GPU或专用加速器的系统。这一差距意味着,尽管神威在传统超算任务上表现卓越,但在当前热门的AI训练和推理工作负载上,其适用性受到一定限制。

从技术架构上看,LX2处理器采用了较为独特的设计。每颗芯片包含两个计算芯粒,共304个CPU核心,分为8个集群,每个集群含38个核心。每个核心均配备了Arm SVE(可扩展向量扩展)SME(可扩展矩阵扩展)单元,能够加速FP64、FP32、BF16、FP16和INT8等多种数据格式的向量与矩阵运算。在内存架构上,LX2集成了32 GB的片上HBM内存,提供高达4 TB/s的带宽,同时支持最多256 GB的外部DDR5内存,试图在带宽与容量之间取得平衡。

尽管如此,当从FP64转向混合精度计算时,LX2仅获得了3.6倍的性能提升。这一幅度明显低于AMD Instinct MI300A英特尔Ponte Vecchio等集成低精度加速器的系统。分析认为,内存带宽、软件生态成熟度以及互联效率等多重因素,共同限制了其混合精度性能的发挥。不过,现在对LX2在混合精度工作负载上的潜力下最终结论可能为时过早。

此次神威系统提交成绩本身也传递出重要信号。该机器完全基于国产技术构建,其公开亮相表明相关机构对供应链的自主可控具有充分信心,认为美国政府的出口管制措施无法影响这些技术的生产。在全球超算竞争日趋激烈、AI算力需求爆发的背景下,神威以纯CPU路线重返性能巅峰,为高性能计算产业提供了除加速器方案之外的另一种技术叙事,也让围绕算力基础设施的资本与战略讨论变得更加多元。