中国神威新超算登顶Top 500，纯CPU实现超2 ExaFLOPS双精度

中国超算「神威·海洋之光」在Top500榜单中凭借双精度性能夺冠。

全球超级计算机排名迎来重大变动。在最新发布的Top 500榜单中，位于深圳国家超算中心的神威（LineShine）系统首次提交成绩便空降榜首，取代了此前排名第一的美国El Capitan。根据Linpack基准测试，神威实现了2.198 ExaFLOPS的双精度浮点（FP64）性能，成为该榜单历史上首台仅依靠CPU就能持续突破2 ExaFLOPS的机器。

神威系统由深圳云计算中心构建，其核心是半定制的LX2处理器。这款芯片基于Armv9指令集架构，每颗处理器集成304个核心，运行频率为1.55 GHz。整个系统总计部署了超过1379万个计算核心，并通过自研的灵启（LingQi）互联技术进行通信，整机功耗约为42.2兆瓦。在能效方面，神威的每瓦性能为52.07 GFLOPS/W，低于El Capitan的60.94 GFLOPS/W，但显著优于几年前同为纯CPU架构的日本超算富岳（Fugaku）——后者在优化与非优化状态下的能效比仅在14.78至16.84 GFLOPS/W之间。

除了Linpack性能登顶，神威在HPCG基准测试中也以22.00 HPCG-PFLOPS的成绩位居第一，显示出其在传统科学计算任务中的强大实力。然而，在衡量AI与混合精度计算能力的HPL-MxP测试中，神威仅取得7.92 EFLOPS，落后于El Capitan、Frontier和Aurora等集成GPU或专用加速器的系统。这一差距意味着，尽管神威在传统超算任务上表现卓越，但在当前热门的AI训练和推理工作负载上，其适用性受到一定限制。

从技术架构上看，LX2处理器采用了较为独特的设计。每颗芯片包含两个计算芯粒，共304个CPU核心，分为8个集群，每个集群含38个核心。每个核心均配备了Arm SVE（可扩展向量扩展）和SME（可扩展矩阵扩展）单元，能够加速FP64、FP32、BF16、FP16和INT8等多种数据格式的向量与矩阵运算。在内存架构上，LX2集成了32 GB的片上HBM内存，提供高达4 TB/s的带宽，同时支持最多256 GB的外部DDR5内存，试图在带宽与容量之间取得平衡。

尽管如此，当从FP64转向混合精度计算时，LX2仅获得了3.6倍的性能提升。这一幅度明显低于AMD Instinct MI300A或英特尔Ponte Vecchio等集成低精度加速器的系统。分析认为，内存带宽、软件生态成熟度以及互联效率等多重因素，共同限制了其混合精度性能的发挥。不过，现在对LX2在混合精度工作负载上的潜力下最终结论可能为时过早。

此次神威系统提交成绩本身也传递出重要信号。该机器完全基于国产技术构建，其公开亮相表明相关机构对供应链的自主可控具有充分信心，认为美国政府的出口管制措施无法影响这些技术的生产。在全球超算竞争日趋激烈、AI算力需求爆发的背景下，神威以纯CPU路线重返性能巅峰，为高性能计算产业提供了除加速器方案之外的另一种技术叙事，也让围绕算力基础设施的资本与战略讨论变得更加多元。

中国神威新超算登顶Top 500，纯CPU实现超2 ExaFLOPS双精度

延伸阅读

相关深度报道

相关每日新闻